北京口语语料库

提供者:朱述承
访问地址:http://app.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

概述

“北京口语调查”课题采用谈话和录音的方式,按照社会语言学的抽样原则,在北京城区和郊区共调查了近500个在北京生长的人,得到录音磁带共210盘。课题组经审查确定其中374人120盘录音带的材料为有效材料。课题组对这374人120盘录音带的材料进行整理加工,取得了剪辑录音带、转写文本、语料库等一系列成果。
经过多年辗转,课题组当年未处理的约100多人(除了374个有效说话人以外的调查对象)的90盘(210-120=90)录音带,除了6个说话人的录音材料以外,下落不明。在已处理的374人120盘录音带中,有1盘(4个说话人)的声音材料已经完全损坏,今存370人119盘录音带。精加工的102人的40万字转写文本今存有电子文件及其打印件。其余272人的130万字转写文本的电子文件下落不明,只有打印件。带词性标注的文件下落不明,带汉语拼音标注的文件显示为乱码,已无法使用。语料库在现在的电脑系统里已无法使用。
北京语言大学语言研究所自2001年建立以来,把重建完整、科学、实用的“北京口语语料”作为一项重要工作。2004年,“当代北京话应用研究”课题(曹志耘主持)获得北京市哲学社会科学“十五”规划项目立项。在随后的几年里,课题组开展了下列工作:清理旧资料,录入无电子文件的语料,听录音校对文字,重新统一编排,把录音带转为数字形式,进行话语分析标注和语音特征标注,建立“文本-声音”链接,试用检索软件,等,最终建成完整版“北京口语语料”,并完成一批相关成果。完整版“北京口语语料”的基础语料包括:(1)由370人119盘录音带转换成的有声语料文件(wav格式),(2)与录音文件相对应的184万字的转写文本(word文件。其中有4人的语料缺录音)。

功能

1.依据说话人的属性和话题,查询某一字、词、短语或结构在北京口语语料中的使用情况。说话人的属性包括出生年份、性别、民族、地区、文化程度、职业,话题包括居住条件、家庭、学习、工作、生活、个人经历等。
系统界面
系统界面
2.查询结果既显示语料,又显示说话人的属性和话题。
3.可以对查询结果进行自定义排序,系统默认依次按照出生年份、性别、民族、文化程度排序。
4.可以对查询结果进行相关统计。