汉字偏误标注的汉语连续性中介语语料库

提供者:朱述承
下载地址:https://cilc.sysu.edu.cn/

简介

汉字偏误连续性中介语语料库是在中山大学国际汉语学院院长周小兵教授鼎力支持和率领下建设的,有汉字标注版和汉字语法标注版两个入口。使用该语料库,必须注册账号,填写自己真实信息,以便了解语料库使用者情况。注册后即可享有查看和搜索全部语料的权利,不注册以guest身份进入语料库只能搜索到和查看前20条语料。“字词句偏误标注版”做得较早,包含分词和词性标注预处理。偏误标注包括错别字、词汇、语法等各种偏误标注,大约44万字。各种标注符号见下文“标注符号说明”。 在现有语料较少,分布不均的客观条件下,本库采用“目标驱动、质稳量足”、“急用先建、循序渐进”的方针,先标注目前比较缺乏的,且很重要的汉字偏误,以后随着条件允许,会继续增加词汇和语法项目的标注。“汉字偏误标注版”就是在上述方针指导下诞生的。它是近几年做的只有错别字标注的语料,但也可供用户进行一般的词汇语言搜索,同时可以供大家对汉字偏误进行分析研究。尤其是“错字数据库”是该库一大重要特色。错字数据库中收集了语料库中的所有错字使用情况,可供大家查询、分析。“汉字标注版”截止2013年8月共有大约310万字,目前还在不断增加更新改善。 需要说明的是,因为分词和词性标注主要对有基础标注时的检索起作用,本语料库是偏误标注,分词和词性标注作用不大,况且分词和词性标注符号在标注时影响标注者视线,故在此版中取消。 本语料库收集的主要是中山大学国际汉语学院留学生日常作文和综合课的写话,语料涵盖初、中、高级阶段,但因为初级阶段的学生本身输出就少,收集困难度高,所以初级水平的语料偏少,中级较多,高级最多。

编码字段说明

每篇语料都有一个编码,比如,B1X-091110-11,“B1X”表示作者年级是“本一下”,中间的数字“091110”表示写作日期是2009年11月10号,最后的“11”是语料收集者对这篇语料的编号,表示2009年11月10号的第11篇作文。同时,表示年级的还有“B2S”,它代表“本二上”,“B2X”代表“本二下”,“B3S”代表“本三上”,“B3X”代表“本三下”,“B4S”代表“本四上”,“B4X”代表“本四下”,“G1”代表“高一”,“G2”代表“高二”,“Z1A”代表“中1A班”,“Z2B”代表“中2B班”,“Z3C”代表“中3C班”,“Z4”代表“中4班”,其中“A、B、C”代表同一个水平等级的平行班,这些符号和字段“年级”的内容相同,中间的日期“091110”也和字段“日期”的内容相同。 每篇语料都有一个编号,这是机器为每篇语料随机自动分配的编号,没有实际意义。
学生年级分别有:初1、初2、初3、初4、中1、中2、中3、中4、高1、高2、本2上(相当于中1、中2)、本2下(相当于中3、中4)、本3上(相当于高1)、本3下(相当于高2)、本4上(最高)。

检索说明

在检索页面,在相应的下拉菜单处点击自己要检索的国家、年级,也可以选择“全部”,实现全部检索。在“关键词”一栏输入要检索的语言项目,除了基本的字、词和字符串检索之外,这里还支持框式结构的检索,比如“除了..以外”、“是..的”、“让..满意”等中间有距离的两个关键词的检索,这两个关键词之间可以有意义联系,也可以没有意义联系。检索输入时,用空格分开关键词,比如:“除了 以外”,空格数量不影响检索结果。“关键词距离”一栏,表示用户希望这两个关键词之间是多大距离,比如,在“关键词”一栏输入“让 满意”,在“关键词距离”一栏输入“3”,结果会检索出“让”和“满意”之间有3个汉字以内的句子,如果输入“0”表示用户对关键词距离不作要求。“显示长度”表示希望检索结果显示的句子长度。“查找字段”一般选择的是“文章”或“标题”,表示在文章内容或标题中查找语言项目。