查看原文
其他

干货 | 全球华语语料库GCC重磅上线(试运行)

语言科技 语言服务
2024-09-04
点击上方“语言服务” 可以订阅



全球华语语料库

summer


网址:huayu.languagetech.cn

长按二维码即可跳转


背景与意义

在全球华语大发展、大融合的背景下,建设全球华语语料库具有重要的意义和必要性。全球华语语料库将与国内汉语语料库共同构建一个全球汉语的语料库一体化系统,广泛收集各国或地区的汉语变体语料,提供全面的数据支持。现有的华语语料库大多是区域性的,缺乏全球视角,全球华语语料库将弥补这一空缺,成为汉语研究的新突破和汉语国际教育、传播的重要支撑。通过该语料库,我们可以进行华文教材的本土化和国别化研究,保护中华民族语言文化遗产。全球华语语料库包括文本语料、口语有声数据和语言生活场景的音视频资源,为语言学、文化学、人类学和传播学等领域的研究提供重要的数据参考。

语料库简介

全球华语语料库一共有四个语料库和一个图片库,分别是:华语新闻库、国内历时新闻库、华语文学库、华文教材库和一个华语景观图片库


  华语新闻库收录了新加坡、泰国、马来西亚、印度尼西亚、越南、菲律宾、柬埔寨、缅甸、韩国等国家共52种华文报纸70万篇报道,共5亿字。  华语文学库有加拿大、美国、缅甸、马来西亚、泰国、英国、印度尼西亚、新加坡等国中短篇小说、散文、诗歌等各种体裁文学作品2377篇,共1057万字。  华文教材库有中国、菲律宾、柬埔寨、越南、新加坡、泰国、马来西亚、印度尼西亚等国家出版的中小学华文教材(1932-至今)近40套,共237万字。  国内新闻库(与华语对比用)收录了国内新闻报纸1946年至2023年报纸200万篇报道,共19亿字。

界面介绍

Hot News



欢迎来到全球华语语料库(GCC)主页,这是一个专为全球华语学习者、研究者和教育工作者打造的综合性语言资源平台。

主页概览:

  • LOGO与名称:页面顶部显示了全球华语语料库的LOGO和名称“GCC(Global Chinese Corpus)”,突显了平台的全球化视野。

  • 导航栏:页面右上角提供了“工具”、“资源”、“帮助”等导航选项,方便用户快速访问不同功能。

  • 分类标签:主页中部设有分类标签,用户可以根据需求选择“华语新闻”、“华语文学”、“华文教材”、“华语景观”、“国内历史新闻”等不同类别的语料。

  • 搜索功能:主页中心设有搜索框,用户可以通过输入关键词进行检索。还提供了“高级搜索”选项,支持更精细的检索。

功能亮点:

  • 多样化语料:涵盖海外华语的新闻、文学、教材、景观等多种类别,满足用户不同的研究和学习需求。

  • 高级搜索:提供高级搜索功能,支持用户根据关键词、类别等条件进行精准检索,提高了检索效率。

  • 丰富资源:平台集成了多种华语资源,不仅有文本语料和图片,还将有音视频资源,全面展示华语的多样性和丰富性。


语料分布情况

Hot News



华语新闻语料库分布情况


华语文学语料库分布情况



华文教材语料库分布情况


国内历时新闻语料库分布情况



检索功能

Hot News



四个语料库均有6种检索模式,其中华语新闻库和国内历时新闻库比其他库多了一个历时检索模式。简单搜索直接搜索查询字词,即可得到搜索结果。

高级搜索有五个通用的检索模式,分别是普通搜索、与或非搜索、词性搜索、通配符搜索、正则搜索。这五种搜索模式都可以限定搜索的地区,其中新闻库还可以限定搜索的时间,文学库可以限定搜索的体裁,教材库可以限定搜索的年级。

  • 普通搜索

在普通搜索模式下,可以选择限定搜索的地区,其中新闻库可以限定搜索的时间文学库可以限定搜索的体裁教材库可以限定搜索的年级


  • 与或非搜索

与或非搜索模式下有三种检索模式,“与”搜索可以搜索同一句中包含的两段检索字词。



“或”搜索下,两端搜索字词是或者的关系。




“非”搜索下,可以检索出一句话包含指定字词且不包含另外一段字词的结果。



  • 词性搜索


词性搜索可以指定检索词的词性。


  • 通配符搜索

可以用通配符和检索字词的结合来进行特定组合的搜索。在通配符中,英文问号“?”代表匹配一个字符,如搜索“政?”可检索到“政府、政治、政策”等词,“*”代表匹配一个或多个字符,如搜索“政*”可检索到“政府、政治家、政务院”等词。(查看更多与通配符相关知识可以访问:通配符详细说明



  • 正则搜索

正则搜索可以检索框中输入正则表达式来完成更复杂的搜索。(查看更多与正则表达式相关知识可以访问:正则表达式详细说明)


  • 历时搜索

华语新闻库和国内历时新闻库有历时搜索搜索模式,可以查看检索词历年的频次情况



查看更多

Hot News



点击“查看更多”可以查看语料的来源,时间,标题以及部分上下文内容。

语料下载

Hot News




本语料库检索结果可以直接下载,下载所得的TXT文件会用“{[检索字段]}”将搜索字段标注出来,但是下载数量有所限制,其中华语新闻库和国内历时新闻库一次限制下载10000条语料,华语文学库一次限制下载1000条语料,华文教材库一次限制下载1000条语料。想获取更多语料请通过“语言科技”微信公众号联系我们。



华语景观图片库

Hot News



华语景观图片库收录了哥伦比亚、菲律宾、柬埔寨、越南、新加坡、泰国、马来西亚、印度尼西亚、缅甸、巴西、俄罗斯、韩国、美国、毛里求斯、秘鲁、乌兹别克斯坦、约旦等国家的华语景观图片7444张,这些图片直观地展现了海外华人的生活状况和华语的使用情况。



本文来源:语言科技



科研干货


干货 | 最新版Z-library官方客户端和最新地址

干货 | 比Z-library更好使的文献搜索神器——安娜的档案

重磅 | 在线自主申领!中国知网学位论文稿酬领取更快捷啦(附网址)

干货 | 中国语言文字数字博物馆移动端“语博”App正式上线

干货 | 新国标《学术论文编写规则》发布(附下载方式)

干货 | 夹用英文的中文文本的标点符号用法(附电子版下载)

干货 | 国家标准:公共服务领域英文译写规范(附电子版下载)

重磅 | 最新版北大核心期刊目录及投稿方式大全(语言学)

重磅 | CSSCI(2021-2022)来源期刊(含扩展版)投稿方式大全(语言学)

干货 | 国际中文教育研究刊物集锦(含刊物简介及投稿方式)

重磅 | 2021版语言学类SSCI期刊名单出炉(附excel版下载)

干货 | 超实用的学术论文英语句式大全(附PDF格式下载)

干货 | 如何快速从全世界语料中找到你想要的句子?

干货 | 这个神器可以获取海量资源,写论文做课题必备

干货 | 英语教学及论文写作必备的12个语法检测工具

干货 | 中国知网的这两项功能悄悄更新,造福了万千研究生

干货 | 知网检索系统更新了,这些新功能,你get到了吗?

干货 | 知网技巧:如何在知网查询外文文献

干货丨这30个网站可以免费获取英文电子书和文献资源

干货 | 6本经典英英词典免费电子资源包(内附安装教程)

干货 | 50个常用学术网站及使用指南

干货 | 全球免费数字图书馆资源大全!

干货 | 北京大学CCL语言田野调查及分析系统(附下载链接)

干货 | 全球汉语传播动态数据库正式开放(附网址)

干货 | “了不起的甲骨文”小程序最全攻略

干货 | 语言研究必备的37个常用语料库

干货 | 国家语言资源服务平台正式上线

干货 | 故宫博物院藏古文字数字平台上线(附网址)

干货 | 汉语方言语法特征语料库上线(附网址)

干货 | AI中文教育资源网上线(附网址)

干货 | 古汉语通假字资源库上线(附网址)

干货 | 100款人文社科领域的学术科研工具大汇总

干货 | 推荐收藏!130个学术网站和26个科研工具

干货 | 推荐收藏!20个实用的语言文字检索数据库

干货 | 推荐收藏!40个容易贬义褒用的词语

干货 | 推荐收藏!230个常见错别字词

干货 | 教师必备的10个教学资源网站

干货 | 做科研最忌讳什么:以语言学研究为例

干货 | 新华社公布102个禁用词,三思而后言(附word版下载)

干货 | 不做“标题党”,语言类公众号推文标题如何出奇出新?

干货 | 百度文心一言向全社会开放

干货 | 中文古籍有多少家底?这个平台聚齐1400余家机构馆藏目录

干货 | 古汉语AI大模型,来了!

干货 | 最全整理!336个语言学论文选题,还怕论文无从下手?

干货 | 研究生常用的科研工具推荐

干货 | 中国国家智慧教育公共服务平台国际版正式上线(附网址)

干货 | 汉语言文字学专业必备的13个网站和11种工具书

干货 | 人文社科领域被引最多的经典论著Top 10(含语言学)


语言服务资源共享



学术资讯分享

学术资源共享

学术交流共进

还有实用干货和更多福利

尽在语言服务资源共享群

欢迎加入


在【语言服务】公众号对话框

回复“资源共享

获取进群方式


语言服务

20万+语言学人已关注

ID:Language-service

投稿邮箱:yuyanfuwu@yeah.net

投稿交流、商务合作、著作出版

请联系语服君

微信号:yuyanfuwu2023


点击

“阅读原文”了解更多实用干货



今天有“在看”我吗?
继续滑动看下一个
语言服务
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存