提供者:匡燕芳
资源介绍: 在国家863高技术项目支持下完成的地方普通话语音语料库。
第一批数据库(上海、广州、重庆和厦门)以朗读语体为主,考虑了语音的音段平衡。
此次第二批(长沙、洛阳、南京、南昌、太原、温州)则在收集地方普通话语音语料库时,突出了口语化的特点,加大了语料覆盖范围。
建库目的是为语音识别系统提供训练库和测试库,为语音研究提供朗读和口语风格,覆盖尽可能多地语音、词汇的语音库。
详见网站http://www.chineseldc.org/
口语为主。尽量覆盖语音现象,包括音段搭配和超音段的组合。
每个方言点的发音人为200人(男女各半),共1200人,没有发音障碍,听力正常。
年龄、性别以及口音和文化程度事先设计,口音按照普通话水平测试标准分级,最终由专家抽样检查。
原始语料来自于小说、课本、电影剧本、聊天访谈。面向信息和通讯应用的语句包括数字,字符和手机短信内容等。
语音平衡的句子,选自访谈对话、口语对话以及人民日报等语料,句长小于35个音节,尽量覆盖所有的音节间的三音子音联。
整个挑选的句子有1895个,覆盖几乎所有音节、音节间两音子和大部分三音子组合。同时兼顾2-3音节词的声调搭配。
每个方言点包含20套语料,每套录音语料包括口语和朗读两种体裁如下:
每个发音人语料的组成 | 发音方式 | 内容说明 |
(CS/LY/NC/NJ/TY/WZ)+(F/M)xxx | 自然独白口语 | 发音人自由挑选一个话题口述:3-5分钟 |
a0001-a0015 | 自然口语 | 回答23个问题 |
qxxxx | 朗读 | 常用口语句子 每人23个 |
xxxxx | 朗读 | 数字,字母,短信等5句 |
sxxxx | 朗读 | 语音平衡的句子 95句左右 |
标注软件使用Praat语音分析软件,标注文件名对应声音文件号 + “.TextGrid”后缀。
标注内容如下:
1.对所有发音人的口语独白进行了语音到文字的转写,包括口语中出现的副语言学和非语言学信息的转写。
2.所有朗读、常用方言词汇和回答问题的汉字的转写。数字用汉字标注,如“五十二”;英文网址用英语表示,如chinaren点com;
字母单读时,字母之间用空格隔开。
3.对所有朗读、常用方言词汇和回答问题进行了正则拼音的转写,并且标注分词信息。


技术缺陷: 即使是专业的国际语音标注软件Praat,在处理方言口语语料库时同样存在着技术瓶颈。
1、首先是国际音标的处理比较复杂。我们采用潘悟云IpaPanNew字体和云龙国际音标两个版本的辑录方式,
当从Word文档转入到Access、Excel或其他类型的文档里时,会出现一些音标无法显示的问题。在检索、排序方面也遇到了障碍。
2、方言中会有一些电脑字库中找不到的生僻字或方言字,即“有音无字”。
为了保证资料的准确性和全面性,在庞大的语料处理中要对这些生僻字做统一编号后的造字处理。
相信在广大科研人员的努力下,我们能最终建立一个内容丰富、材料准确、查找便捷、方便实用的汉语方言俗语语料库,
为汉语方言的迸一步深入研究,为国家语言文字工作的健康发展和各类工具书的编纂提供全面可靠的数据;
同时对一些相关的问题进行探讨,为语汇学这门新学科的发展,贡献我们的微薄之力。
书名: 《元认知和话语的链接结构》
作者: 李明洁著