国家语委现代汉语语料库

提供者:张琪

链接地址:

http://www.cncorpus.org/

简介:

国家语委现代汉语语料库是一个大规模的平衡语料库,语料选材类别广泛,时间跨度大。在线提供检索的语料经过分词和词性标注,可以进行按词检索和分词类的检索。该语料库于1991年12月由国家语言文字工作委员会提出立项,1998年底建成,被列为国家语委“九五”“十五”科研重大项目,得到国家科技部“863”“973”计划多个项目支持(“智能中文信息处理平台”“图像、语音和自然语言理解”“中文信息处理应用基础研究”)。

国家语委现代汉语通用平衡语料库全库约为1亿字符,其中1997年以前的语料约7000万字符,均为手工录入印刷版语料;1997之后的语料约为3000万字符,手工录入和取自电子文本各半。标注语料库为国家语委现代汉语通用平衡语料库全库的子集,约5000万字符。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。

除了在线的现代汉语平衡语料库之外,网站还提供以下各类工具的下载,如现代汉语语料库、在线语料库字词频数据、语料处理软件工具现代汉语字表,以方便研究人员自行使用。本文只介绍在线语料库的使用情况及教程。本语料库是一个有词类标记的语料库,语料库检索结果的语料可以输出为生语料或标记语料。

教程:

三种查询模式

1、整词匹配:使用整词索引进行查询,多关键词时忽略顺序,速度快,多关键词查询时任一关键词未被索引则不能返回结果。

2、模糊匹配:模糊匹配最易查全,多关键词时考虑顺序,速度较慢,无停用词,可查询词类串。

3、全文检索:使用全文检索方式进行查询,多关键词时忽略顺序,速度快,但不能检索“的、了”等极高频词。

查询方法:

查询条件由一个或多个关键词组成。

关键词分为以下几类:

1、单一关键词:

  • 字或词,如:文、语言
  • 词+这个词的词类,词类标识符为“/”,如:语言/n、制定/v

2、多关键词:

在整词匹配查询模式里—

  • 表示and关系,用+连接或用空格隔开,多关键词可以是词串,如:语言 文字,可以是限制词类的词串,如语言/n 文字/n,也可以是连续词类串,如: /v /u /m /v
  • 表示or关系,用@连接,如语言@文字
  • 表示not关系,用-连接,如语言-文字

在全文检索查询模式里—

可以利用查询表达式选择显示出研究者想要的结果。

  • 两个关键词共现,之间的距离小于3,如:吃/v+<3+亏/n
  • 动词“吃”3个词内不共现副词“不”,如:(!不/d+<3)吃/v
  • 动词“吃”前后3个词内都不共现副词“不”,如:(!不/d+<3)吃/v(<3+!不/d)

*注意:表达式中的数字即距离是以词为单位的,共现项也是以词为单位,如果在语料标注中“不好”整词标注为/a,是不能作为“不/d”处理的。

语料字词检索

语料库在线提供一种特殊的检索,不是在整句语料中检索,而是是在各个分词单位中进行检索,查询条件中的关系有四种,分别是是等于、包含、开头是、结尾是,然后输入想要查询的字词,对于研究词类的聚合关系或构词的组合关系都很有帮助。

比如:查询“包含”“狗”的词,结果按词频分别为第一位的” 狗”,出现频次791,频率0.0828,第二位是”走狗”,出现频次72,频率0.0075,第三位”黑狗”,出现频次57,频率0.0060,后面依次为”花狗”、”狗腿子”等。

相关论文:

  1. 张松松,袁煜,龚箭,张薇.基于国家语委语料库的汉语起始动词认知研究方法[J].外国语言文学,2016,33(04):238-248+288.
  2. 苏新春.国家语委“通用语料库·核心库”的词表提取及词汇构成分析[J].江苏大学学报(社会科学版),2007(01):75-82.
  3. 刘金哲.辨析“幸亏”与“好在”——基于国家语委语料库的研究[J].现代语文(语言研究版),2009(07):48-50.