HSK动态作文语料库

提供者:杜成玉、张明慧
网址:http://bcc.blcu.edu.cn/hsk

一、背景与概况


汉语水平考试简称HSK,为测试母语非汉语者(包括外国人、华侨和中国少数民族考生)的汉语水平而设立的一项国际汉语能力标准化考试。HSK由北京语言大学汉语水平考试中心设计研制,包括基础汉语水平考试,初、中等汉语水平考试和高等汉语水平考试。HSK每年定期在中国国内和海外举办,凡考试成绩达到规定标准者,可获得相应等级的《汉语水平证书》。中国教育部设立国家汉语水平考试委员会,该委员会全权领导汉语水平考试,并颁发汉语水平证书。
HSK动态作文语料库是由北京语言大学崔希亮教授主持的一个国家汉办科研项目,于2003年7月启动,2006年12月建成后上网试运行,经过补充修改,现向社会正式开放。
该语料库的原始语料是1992—2005年部分外国考生参加高等汉语考试的作文答卷。语料库1.0版语料总数达到11569篇,共计424万字,是一个动态语料库。语料库有两个版本:标注语料和原始语料,标注语料是把考生作文答卷人工录入计算机并经人工标注各种中介语偏误的语料;原始语料是考生原始作文的电子扫描语料。同时,语料库还提供了历次考试的时间、地点和作文题目,以及考生信息:考生国籍、性别、作文分数、参加高等汉语水平考试的总分数及是否得到汉语水平证书及证书等级等。
运用该语料可进行对外汉语教学的多方面研究,如汉语中介语研究、第二语言习得研究、对外汉语教材研究等。

二、语料库特色


1、语料典型,填补了国内外汉语中介语语料库研制的空白。
2、规模大,用途广泛,可用于汉语中介语研究、对外汉语教材研究、汉语本体研究等。
3、语料有标注版语料和扫描版语料,功能各异,标注全面细致科学,标注内容有:
字处理:错字、别字、繁体字、异体字、拼音字、漏字、多字标注;
词处理:错词、缺词、多词、外文词、离合词错误标注;
句处理:句子成分残缺或多余错误标注、各种特殊句式、语序、动词重叠的错误标注、句式杂糅、未完句标注;
篇章处理:句间链接手段的错误标注、语义表达方面的错误标注;
标点符号处理:错误标点标注、空缺标点标注、多于标点标注。
4、各种用字错误、各种用词错误等统计信息丰富,考生国籍、性别等背景信息完备。
5、界面友好,使用方便。
6、免费开放,服务于教学科研。

三、语料库功能


1、字符串检索(关键词检索)
2、错句检索
3、错篇检索
4、全篇检索
5、查询条件的组合检索
6、属性设置
7、统计信息及相关检索

四、语料库内容简介

  1. 字处理:包括错字标注、别字标注、繁体字标注、异体字标注、拼音字标注、漏字标注、多字标注以及各种用字错误统计,总的字频统计等。
  2. 标点符号处理:包括错误标点标注、空缺标点标注、多余标点标注以及各种用词错误统计、总的词频统计等。
  3. 词处理:包括错词标注、缺词标注、多次标注、外文词标注、离合词错误标注以及各种用词错误统计、总的词频统计等。
  4. 句处理:包括句子成分残缺或多余的错误标注,各种特殊句式的错误标注,语序、动词重叠、句式杂糅、未完句等方面的错误标注以及各种句子错误的数据统计。
  5. 篇章处理:包括句间连接手段的错误标注,语义表达方面的错误标注以及篇章错误的数据统计。为了方便用户更充分地使用这些作文语料,语料库还提供了历次考试的时间、地点和作文题目以及下列考生信息:考生国籍、性别、作文分数、口试分数、客观试卷听力、阅读、综合表达各部分
  6. 分数和参加高等汉语水平考试的总分分数、是否得到汉语水平证书以及证书等级。

五、语料库的局限性


由于该语料库是外国考生参加高等汉语水平考试的作文答卷语料库,得到证书的考生均为已经达到高等教育水平的汉语学习者,
未得到证书的绝大部分考生也处于高级阶段的学习者。因此,利用这个预料局可以了解高级阶段外国学习者的汉语学习情况,进行横向的断面考察,
但无法进行纵向的学习过程考察,是该语料库的先天不足。

相关论文:


[1]张宝林 崔希亮 任杰. 关于“HSK动态作文语料库”的建设构想[A].第三届全国语言文字应用学术研讨会论文集[C],2004.
[2]张宝林. “HSK动态作文语料库”的特色与功能[J]. 国际汉语教育,2009.
[3]任海波. 关于中介语语料库建设的几点思考——以“HSK动态作文语料库”为例[J]. 语言教学与研究,2010.
[4]张宝林. 回避与泛化——基于“HSK动态作文语料库”的“把”字句习得考察[J]. 世界汉语教学,2010.
[5]李治平,李丛. HSK动态作文语料库语篇关联语使用情况统计分析[J]. 语言文字应用,2017.
[6]张烷灵. 基于HSK动态作文语料库介词“给”的偏误分析[J]. 现代语文(语言研究版),2017.
[7]谢小庆《HSK和MHK在考试质量方面的探索》