爱汉语语料库

提供者:赵小静

  • 地址
  • 简介
  • 使用说明
  • 使用实例

地址

http://www.aihanyu.org/cncorpus/index.aspx

简介

引自爱汉语语料库:

该语料库包含“语料库检索”、“语料分析处理”、“研究资源”三部分,分别用于现代汉语、古代汉语字词索引;分词及词性标注;汉语拼音标注;字词频率统计等功能。

其中,现代汉语语料库语料库样本数:9487个(样本数即篇章数);语料库字符数:19455328个(含汉字、字母、数字、标点等);语料库总词语数:12842116个(含单字词、多字词、字母词、外文祠、数字串、标点符号等);语料库总词语个数:162875(指语料库出现的分词单位的个数)

语料库总汉字词语个数:151300(含汉字的词语个数,不包括外文词、标点、数字串等);语料库说明:现代汉语语料库是一个大规模的平衡语料库,语料选材类别广泛,时间跨度大。在线提供检索的语料经过分词和词性标注,可以进行按词检索和分词类的检索。

古代汉语语料库语料库字数: 约一亿字;语料库说明:古代汉语语料库包含自周至清各朝代的约1亿字语料,含四库全书中的大部分古籍资料。 部分书目如下:诗经、尚书、周易、老子、论语、孟子、左传、楚辞、礼记、大学、中庸、吕氏春秋、尔雅、淮南子、史记、战国策、三国志、世说新语、文心雕龙、全唐诗、朱子语类、封神演义、三国演义、水浒传、西游记、红楼梦、儒林外史等。;语料库检索:语料库未经标注,支持全文检索、模糊检索,支持语料出处、关键词居中(KWIC)排列显示。

语料分词和词性标注: 在线使用的语料分词和词性标注工具。
语料汉语拼音自动标注: 在线使用的语料汉语拼音自动标注工具。
语料字词频率统计: 在线使用的语料字词频率统计工具。
语料分析处理软件的单机版可在研究资源页面下载。

使用说明

现代汉语、古代汉语语料库

现代汉语语料库

查询模式

整词匹配:使用整词索引进行查询,可带词类,多关键词时忽略顺序,速度快,多关键词查询时任一关键词未被索引则不能返回结果。

模糊匹配:模糊匹配最易查全,可带词类,多关键词时考虑前后顺序,速度较慢。支持查询词类串。

全文检索:使用全文检索方式进行查询,不可带词类,多关键词时忽略前后顺序,速度快,但不能检索“的、了”等极高频词。

查询条件格式

查询条件由一个或多个关键词组成:单一关键词,如: 语言、语言;字或词,如:文、语言;词+词类,如: 语言/n、制定/v;词类标识符为[ / ],如:语言/n,多关键词,如: 语言 文字,语言/n 文字/n,连续词类串,如: /v /u /m /v。

词性标记代码:

n 普通名词 nt 时间名词 nd 方位名词
nl 处所名词 nh 人名 nhf
nhs ns 地名 nn 族名
ni 机构名 nz 其他专名 v 动词
vd 趋向动词 vl 联系动词 vu 能愿动词
a 形容词 f 区别词 m 数词
q 量词 d 副词 r 代词
p 介词 c 连词 u 助词
e 叹词 o 拟声词 i 习用语
j 缩略语 h 前接成分 k 后接成分
g 语素字 x 非语素字 w 标点符号
ws 非汉字字符串 wu 其他未知的符号

多关键词逻辑
只对[整词匹配]的查询方式有效的标记:空格或 [+] 表示 [与(and)] 关系,如: 语言 文字 或 语言 +文字;[@] 表示 [或(or)] 关系,如: 语言 @文字 ;[-] 表示 [非(not)] 关系,如: 语言 -文字。示例:条件“语言 @文字 研究 -教学”表示检索“包含关键词’语言’或’文字’并且含关键词’研究’但不含关键词’教学’”的例句。

古代汉语语料库

查询模式、查询条件格式与现代汉语语料库相同,此外可以分朝代进行检索。

分词及词性标注&汉语拼音&字词频率统计

输入文本后可自动进行分词、词性标注、汉语拼音标注及字词频率统计。

使用实例

现代汉语、古代汉语语料库

如,在现代汉语语料库检索栏中输入“调查/v 得”,得到87条符合条件的生语料及87条符合条件的标注语料。全部语料可下载。
如,在古代汉语语料库中,将朝代设定为“宋”,输入“何+之”进行检索,得到14264条语料。

分词及词性标注&汉语拼音&字词频率统计。

分别在检索框中输入“现代汉语”,得到以下结果:

分词及词性标注结果:现代/nt 汉语/n

汉语拼音标注结果:现代/xiàndài 汉语/hànyǔ

字频统计结果:得到现代汉语四字的频次及频次。如图:
image.pngimage.png