香港二十世纪中期粤语语料库

提供者:朱述承

简介

过去的粤方言历时研究主要参考19世纪至20世纪中期的文字材料。部分出现在早期材料的语言特征,如完成体标记「哓」(Cheung, 1997, 郭必之和片冈新, 2006)、中性问句的VP-Neg句型(Yue, 2004, Cheung, 2001) 和间接宾语标记「过」和工具标记「畀」(Chin, 2009)等,大多在二十世纪二三十年代后逐渐消失或只散见于个别现代粤方言中。换句话说,二十世纪中期很可能是这些新旧语言特徵交替的时期。如果我们能够收集相关时期的语料,就可以增加我们对粤语发展的了解。除了从个别发音人收集方言语料之外,很多学者也使用自然语料,如香港大学语言学系上世纪九十年代构建的香港粤语语料库(The Hong Kong University Cantonese Corpus (Luke, 2011),梁文德和罗心宝构建的The Hong Kong Cantonese Adult Language Corpus (Leung and Law, 2001)。也有学者透过多媒体(如电视剧、电台广播剧和电影)收集语料(如Chan, 1996, 欧阳伟豪, 2006, 梁仲森, 2005等)。 要收集二十世纪中期粤语的语料,我们可以从香港电影出发。香港电影业在五六十年代十分蓬勃,十多年间,生产了一千五百多部电影(锺宝贤, 2007),一般称为「粤语长片」。有学者(如刘镇发和萧佩珊, 2010, 李雄溪和许子滨, 2005)曾经从粤语长片分析早期粤语的面貌。不过这些研究只根据研究者的兴趣而收集和分析个别语言特徵。背后缺乏一个有系统的语料库。 基于以上背景,香港教育学院(现为香港教育大学)语言学及现代语言系过去一年构建了一个以香港五六十年代的粤语长片为基础的语料库。语料库共有二十一套电影(其中十四套可供检索,见下表),每套电影长度约100分钟,电影中的对白用汉字转写,然后进行切词和校对,每个词语配有粤语读音(以香港语言学学会的「粤拼」为基础)。语料库共计约二十万字,并提供不同条件(如词汇、拼音、电影、影星等)的检索。

访问地址

http://corpus.ied.edu.hk/hkcc/

相关论文

1、欧阳伟豪. (2006). 从周星驰对白的旧粤语到动词后置成份的句法构筑. 《香港语言学学会-粤语讨论会(WOC-5):从社会语言学看粤语近代的转变》. 香港中文大学. 2006.4.29.
2、锺宝贤. (2007). 《香港影视业百年》. 香港 : 三联书店.
3、郭必之、片冈新. (2006). 早期广州话完成体标记「哓」的来源和演变。 《中国文化研究所学报》第46期, 91-116页。
4、刘镇发, 萧佩珊. (2010). 香港语言变化的探讨:透过六十年代粤语电影比较今昔粤语语音. 《第十五届国际粤方言研讨会》. 澳门. 2010.12.13-15.
5、李雄溪, 许子滨. (2005). 五、六十年代香港粤语电影语言研究——以语气词「遮」、「啫」为例. 《第十届国际粤方言研讨会》. 香港中文大学. 2005.12.12-14.
6、梁仲森. (2005). 《当代香港粤语语助词的研究》. 香港:香港城市大学语言资讯科学研究中心.
7、Chan, Marjorie. (2006). “Gender-marked speech in Cantonese: the case of sentence-final particles je and jek.” Studies in the Linguistic Sciences, 26.1/2: 1-38.
8、Cheung, Hung-nin Samuel. (1997). “Completing the completive: (Re)constructing early Cantonese grammar”. In Chaofen Sun ed., Studies on the History of Chinese Syntax, Journal of Chinese Linguistics Monograph, Series No.10, pp. 133-165.
9、Cheung, Hung-nin Samuel. (2001). “The interrogative construction: (Re)constructing early Cantonese grammar”. In H. Chappell, ed., Sinitic Grammar: Synchronic and Diachronic Perspectives. Oxford: Oxford University Press, pp. 191-231.
10、Chin, Andy Chi-on (钱志安). (2009). The Verb GIVE and the Double-object Construction in Cantonese in Synchronic, Diachronic and Typological Perspectives. PhD dissertation, University of Washington.
11、Luke, Kang Kwong. (2011). “The Hong Kong Cantonese corpus: Design and uses (香港粤语语料库的设计和用途)”. Paper presented at the Roundtable Conference on Linguistic Corpus and Corpus Linguistics in the Chinese Context 《汉语语料库及语料库语言学圆桌会议》, The Hong Kong Institute of Education, Hong Kong, May 6 – 8 2011.
12、Yue, Anne. (2004). “Materials for the diachronic study of the Yue dialects”. In Shi Feng and Shen Zhongwei, eds., The Joy of Research: A Festschrift in Honor of Professor William S-Y. Wang on His Seventieth Birthday《乐在其中 - 王士元教授七十华诞庆祝文集》. Nankai: Nankai University, pp. 246-271.