提供者:赵小静
- 地址
- 简介
- 使用说明
- 使用实例
地址
http://www.aihanyu.org/cncorpus/index.aspx
简介
引自爱汉语语料库:
该语料库包含“语料库检索”、“语料分析处理”、“研究资源”三部分,分别用于现代汉语、古代汉语字词索引;分词及词性标注;汉语拼音标注;字词频率统计等功能。
其中,现代汉语语料库语料库样本数:9487个(样本数即篇章数);语料库字符数:19455328个(含汉字、字母、数字、标点等);语料库总词语数:12842116个(含单字词、多字词、字母词、外文祠、数字串、标点符号等);语料库总词语个数:162875(指语料库出现的分词单位的个数)
语料库总汉字词语个数:151300(含汉字的词语个数,不包括外文词、标点、数字串等);语料库说明:现代汉语语料库是一个大规模的平衡语料库,语料选材类别广泛,时间跨度大。在线提供检索的语料经过分词和词性标注,可以进行按词检索和分词类的检索。
古代汉语语料库语料库字数: 约一亿字;语料库说明:古代汉语语料库包含自周至清各朝代的约1亿字语料,含四库全书中的大部分古籍资料。 部分书目如下:诗经、尚书、周易、老子、论语、孟子、左传、楚辞、礼记、大学、中庸、吕氏春秋、尔雅、淮南子、史记、战国策、三国志、世说新语、文心雕龙、全唐诗、朱子语类、封神演义、三国演义、水浒传、西游记、红楼梦、儒林外史等。;语料库检索:语料库未经标注,支持全文检索、模糊检索,支持语料出处、关键词居中(KWIC)排列显示。
语料分词和词性标注: 在线使用的语料分词和词性标注工具。
语料汉语拼音自动标注: 在线使用的语料汉语拼音自动标注工具。
语料字词频率统计: 在线使用的语料字词频率统计工具。
语料分析处理软件的单机版可在研究资源页面下载。
使用说明
现代汉语、古代汉语语料库
现代汉语语料库
查询模式
整词匹配:使用整词索引进行查询,可带词类,多关键词时忽略顺序,速度快,多关键词查询时任一关键词未被索引则不能返回结果。
模糊匹配:模糊匹配最易查全,可带词类,多关键词时考虑前后顺序,速度较慢。支持查询词类串。
全文检索:使用全文检索方式进行查询,不可带词类,多关键词时忽略前后顺序,速度快,但不能检索“的、了”等极高频词。
查询条件格式
查询条件由一个或多个关键词组成:单一关键词,如: 语言、语言;字或词,如:文、语言;词+词类,如: 语言/n、制定/v;词类标识符为[ / ],如:语言/n,多关键词,如: 语言 文字,语言/n 文字/n,连续词类串,如: /v /u /m /v。
词性标记代码:
n | 普通名词 | nt | 时间名词 | nd | 方位名词 |
---|---|---|---|---|---|
nl | 处所名词 | nh | 人名 | nhf | 姓 |
— | — | — | — | — | — |
nhs | 名 | ns | 地名 | nn | 族名 |
— | — | — | — | — | — |
ni | 机构名 | nz | 其他专名 | v | 动词 |
— | — | — | — | — | — |
vd | 趋向动词 | vl | 联系动词 | vu | 能愿动词 |
— | — | — | — | — | — |
a | 形容词 | f | 区别词 | m | 数词 |
— | — | — | — | — | — |
q | 量词 | d | 副词 | r | 代词 |
— | — | — | — | — | — |
p | 介词 | c | 连词 | u | 助词 |
— | — | — | — | — | — |
e | 叹词 | o | 拟声词 | i | 习用语 |
— | — | — | — | — | — |
j | 缩略语 | h | 前接成分 | k | 后接成分 |
— | — | — | — | — | — |
g | 语素字 | x | 非语素字 | w | 标点符号 |
— | — | — | — | — | — |
ws | 非汉字字符串 | wu | 其他未知的符号 | ||
— | — | — | — | — | — |
多关键词逻辑
只对[整词匹配]的查询方式有效的标记:空格或 [+] 表示 [与(and)] 关系,如: 语言 文字 或 语言 +文字;[@] 表示 [或(or)] 关系,如: 语言 @文字 ;[-] 表示 [非(not)] 关系,如: 语言 -文字。示例:条件“语言 @文字 研究 -教学”表示检索“包含关键词’语言’或’文字’并且含关键词’研究’但不含关键词’教学’”的例句。
古代汉语语料库
查询模式、查询条件格式与现代汉语语料库相同,此外可以分朝代进行检索。
分词及词性标注&汉语拼音&字词频率统计
输入文本后可自动进行分词、词性标注、汉语拼音标注及字词频率统计。
使用实例
现代汉语、古代汉语语料库
如,在现代汉语语料库检索栏中输入“调查/v 得”,得到87条符合条件的生语料及87条符合条件的标注语料。全部语料可下载。
如,在古代汉语语料库中,将朝代设定为“宋”,输入“何+之”进行检索,得到14264条语料。
分词及词性标注&汉语拼音&字词频率统计。
分别在检索框中输入“现代汉语”,得到以下结果:
分词及词性标注结果:现代/nt 汉语/n
汉语拼音标注结果:现代/xiàndài 汉语/hànyǔ
字频统计结果:得到现代汉语四字的频次及频次。如图: