厦门大学国家语言资源检测与研究教育教材中心语料库

提供者:朱述承
原文地址:http://ncl.xmu.edu.cn/shj/

语料构成

目前已经开通了部分语料库的全文检索,近期将继续更新。
现语料库的教材种类及规模为:

序号 类别 数据库名称 词记录数 字符数
1 语料库 国内对外汉语教材 539489 771350
2 语料库 中小学语文教材 1289898 1834150
3 语料库 现代汉语语料库 107202650 174426634
4 词典 现代汉语分类词典 无统计数据 无统计数据
5 语料库 学科教材语料库 878365 1450898
总计 / / 109910402 178483032

语料来源详细说明

(1)国内对外汉语教材
序号 来源
1 博雅汉语;出版社:北京大学出版社;出版时间:2004,2006
2 汉语会话301句;出版社:北京语言大学出版社:出版时间:2006
3 汉语教程;出版社:北京大学出版社;出版时间:1992,1993
4 汉语教程;出版社:北京语言大学出版社;出版时间:1999,2003
5 交际汉语;出版社:科学普及出版社;出版时间:2003
6 阶梯汉语;出版社:话语教学出版社;出版时间:2004
7 桥梁;出版社:北京语言大学出版社;出版时间:2000
8 速成汉语;出版社:北京语言大学出版社;出版时间:1996
9 新标准汉语;出版社:北京大学出版社;出版时间:2004
10 新实用汉语;出版社:北京语言大学出版社;出版时间:2002,2005
11 中文;出版社:暨南大学出版社;出版时间:1997

(2)中小学语文教材
序号 来源
1 语文;出版社:江苏教育出版社;阶段:小学;主编:张庆,朱家珑;初审时间:2001-2004
2 语文;出版社:江苏教育出版社;阶段:初中;主编:洪宗礼;初审时间:2002
3 语文;出版社:北京师范大学出版社;阶段:初中;主编:孙绍振;初审时间:2004
4 语文;出版社:人民教育出版社;阶段:小学;主编:崔峦,蒯福棣;初审时间:2001-2004
5 语文;出版社:语文出版社;阶段:初中;主编:史习江;初审时间:2001-2002
6 语文;出版社:北京师范大学出版社;阶段:小学;主编:马新国,郑国民;初审时间:2001-2003
7 语文;出版社:语文出版社;阶段:小学;主编:王均,杨曙望;初审时间:2003
8 语文;出版社:人民教育出版社;阶段:初中;主编:顾振彪,顾之川,温立三;初审时间:2001-2004

(3)现代汉语语料库
序号 来源
1 文学
2 报纸
3 网站新闻
4 博客
5 口语材料
6 杂志

(4)现代汉语分类词典
序号 来源

(5)学科教材语料库
序号 来源
1 地理;出版社:中国地图出版社;主编:王民主;初审时间:2003
2 历史;出版社:华东师范大学出版社;主编:王斯德;初审时间:2001-2003
3 历史;出版社:人民教育出版社;主编:王宏志;初审时间:2001-2002
4 地理;出版社:人民教育出版社;主编:吴履平;初审时间:2001-2002
5 历史;出版社:北京师范大学出版社;主编:朱汉国;初审时间:2007
6 地理;出版社:湖南教育出版社;主编:刘新民;初审时间:2001
7 历史;出版社:四川教育出版社;主编:龚奇柱;初审时间:2003-2004

加工和统计

所有语料经过机器分词和机器词性标注。统计信息中分词单位数指词(包含标点符号)的总记录数,字符数包含标点符号。

模糊检索说明

模糊检索完全支持正则表达式,但是正则表达式中必须包含汉字。 例如:一边[\u4e00-\u9fa5]{0,10}一边 可以在非分词语料中检索包含“一边”……“一边”并且中间有0-10个汉字的句子,其中“[\u4e00-\u9fa5]”表示汉字,“{0,10}”表示长度。 正则表达式的详细说明可以参考正则表达式(来源:百度百科)

《现代汉语分类词典》

《现代汉语分类词典》苏新春主编,纸质版由商务印书馆于2013年出版。

词义标注规则库

“词义标注规则库”来自苏新春教授主持的国家社科基金项目“基于国家语委‘通用语料库’之上的汉语义频词库的开发”,主要用于多义词的计算机词义甄别。计算机词义甄别是计算机语言处理词汇层面上亟待解决的问题,相对于词的切分和词性标注其困难程度有高了许多,其中计算机缺乏辨析多义词知识是主要困难,“词义标注规则库”通过提供直接的词义区别性形式特征作为甄别知识,从而达到计算机词义甄别的目的。 规则库为3775个多义词提供词义甄别知识,多义词的选择标准是双音节,高频,义项在2-5个之间,这些是现代汉语多义词的主体部分。其内容总体上融合了“现代汉语语料库”的统计信息、“词义标注机用义项库”提供的计算机用义项、“现代汉语分类库”提供的语义类、“语法信息库”(来自《现代汉语语法信息词典》北京大学俞士汶等著)提供的语法框架。这些基础性知识库经过统计和人工甄别形成“词义标注规则库”。利用这一知识库编写的词义自动甄别软件取得了较好的词义甄别效果。

词义标注验证库

“词义标注验证库”来自苏新春教授主持的国家社科基金项目“基于国家语委‘通用语料库’之上的汉语义频词库的开发”,主要用于多义词的计算机词义甄别。计算机词义甄别是计算机语言处理词汇层面上亟待解决的问题,相对于词的切分和词性标注其困难程度有高了许多。准确标准词义的语料对计算机词义甄别有重要意义,既可以作为词义甄别知识的统计来源,也可以用于计算机甄别效果的检验。但是这方面语料库的大规模开发又非常困难,成效不大。 为了增强可行性,“词义标注验证库”含3775个多义词的标注结果,多义词的选择标准是双音节,高频,义项在2-5个之间。库中每个词随机选取100-240个句子,人工标注义项。
本网站暂时每个义项公布20个句子。