LIVAC

提供者:朱述承

简介

LIVAC汉语共时语料库(Linguistic Variation in Chinese Speech Communities)与众不同,因为它以严紧、恒常与“共时”方式,搜索和处理了超常的大量汉语具代表性报章语料,并通过精密的技术,累积了泛华语地区众多精确的统计数据。本语料库最大特点是采用“共时性”视窗模式,剖析来自香港,北京,上海,台湾,澳门,新加坡等多地的定量华语媒体语料。直至2016年,LIVAC已处理逾6.0亿字,累积并持续提炼出约两百万词条。LIVAC所收集各地语用数据,可供各种比较研究,并方便有关的信息科技发展与应用。此外,语料库又兼顾了“历时性”,方便各界以专词配合语用范围搜索(KWIC),以便客观地观察与研究20年视窗内有代表性的语用发展全面动态。经过协调与配合个别需求,例如针对性以地区、时段或范畴,LIVAC曾为多个公、私营机构提供服务,包括语言工程,资讯服务,词典编著,媒体分析与教育各方面机构等。LIVAC由香港城市大学语言资讯科学研究中心开发和推展,由城大企业有限公司旗下麒麟(香港)有限公司提供技术支援。2010年至2013年期间,LIVAC曾挂靠于香港教育学院语言资讯科学研究中心。自2013年7月起,LIVAC由麒麟(香港)有限公司独家维护和开发。

访问地址

http://www.livac.org/

语料处理

1.来自媒体、自行输入、登录
2.统一为文字版,简转繁,储存Big5及Unicode两版本
3.电脑自动切词,电脑自动校对
4.人工校对、复校,词类标注
5.提取词语,加入各地词库
6.各地词库组合为LIVAC大语库

标注及应用

a. 多种分类,如一般名词与专用名词,例如人名;地名;专名(人名、姓氏、半称谓、地名、机构专名、商用专名、其他专名、时间词、方位词、处所词等);叠词;外文词;套装词;数词等。
b. 设人名库、地名库、专名库
c. 提供“专名榜”、“新词榜”、“名人榜”、“地名榜”,覆合词及匹配词
d. 其他标注,如一般名词;数词;量词;多类动词;多类形容词;代词;副词;介词;连词;多类助词;语气词;拟声词;叹词;不完整词等。

特点

由于LIVAC语料是多方面平行“共时”、“同步”方式搜集语料,语料来源涵盖整个泛华语地区,故可协助搜索资料及作分析,是目前有别于其他任何汉语语料库或同类型研究。这点,特别得到语文界及其他方面专家、学者的认同和重视。同时,由于语料库历时十九年,因此“共时性”以外又兼顾了“历时性”,方便研究人员客观地探究到视窗内的有代表性的语言发展全面动态。LIVAC所提供的不仅是语言资料,还同时提供共时的社会、文化档案资料,犹如一个系列性的时间锦囊。

应用

1、LIVAC提供于编纂多本泛华语词典的依据,如近年推出的《新华新词语词典》 (提供词条,北京商务印书馆2003年出版);《21世纪华语新词语词典》(上海复旦大学出版社2007年出版简体字本,台湾丽文文化事业股份有限公司2008年出版繁体字本);《全球华语新词语典》(北京商务印书馆,2010年出版);《汉英大词典》(提供新词词条,牛津大学出版社,2010年出版);及正在编纂中的逆序词典、法律词典、专利词典等。
2、LIVAC可为研究各地华语语言与文化比较,例如词语在各地的使用及演变。
3、LIVAC还可为语言教学研究和开展,例如对各华语地区学生中文程度的测试、与香港卫生署合作制定香港(粤语)口语能力量表(COLAS)、汉语拼音教学网页的建立等等。
4、LIVAC目前最大的一个用途就是应用于资讯科技发展研究,例如用于互联网上的专名检索、手提电话中文字频词频的排列和输入、语音文字的自动转换等。
5、多年来为多家国际企业和政府机构合作,提供语料库研究后勤及开发服务,如中国教育部、香港特区政府卫生署、香港特区政府司法机构、NOKIA(北京)、Tegic(ERICSSON,美国)、YAHOO(香港)、Microsoft(台湾)、NTT Docomo (日本)、BASIS(美国)、无敌科技(台湾、中国大陆)、欧洲Matrixware公司、北京商务印书馆、上海复旦大学出版社、牛津大学出版社等。
6、其他: 年度新闻风云人物榜(www.livac.org/celebrity)、年度新词榜(www.livac.org/newword.php?lang=tc)、中外人名对照表、雅歌汇- 汉语文白对照的机器辅助处理及检索平台、成语填字坊网上游戏 (http://qie.livac.org/xwordlite)。

相关论文

1、邹嘉彦、黎邦洋、陈伟光、王士元(编)(1998),《汉语计量与计算研究》,香港,香港城市大学语言资讯科学研究中心。
2、邹嘉彦、游汝杰(编)(2007),《21世纪华语新词语词典》(简体字版),上海,复旦大学出版社。
3、邹嘉彦、游汝杰(编)(2008),《21世纪华语新词语词典》(繁体字版),台湾,丽文出版社。
4、邹嘉彦、游汝杰(编)(2010),《全球华语新词语词典》,北京,商务印书馆。
5、Tsou, B. K., Kwong, O.Y. (Eds). (2015). (Linguistic Corpus and Corpus Linguistics in the Chinese Context ) Journal of Chinese Linguistics Monograph Series Number 25, 2015邹嘉彦、邝蔼儿(编)《汉语语料库及语料库语言学》《中国语言学报》专刊第25期, Hong Kong: The Chinese University Press
6、Chin, Chi-on Andy and Kwok, Bit-chee and Tsou, Benjamin K., (Eds). (2016). Commemorative Essays for Professor Yuen-Ren Chao: Father of Modern Chinese Linguistics. Taiwan: Crane Publishing.
7、邹嘉彦、黎邦洋(2003),〈汉语共时语料库与资讯开发〉,徐波、孙茂松、靳光瑾编《中文资讯处理若干重要问题》〔《973计划国家语言自然语言理解与知识扢掘》总体刊物〕(页147-165),北京,科学出版社。
8、Tsou, Benjamin. (2004). “Chinese Language Processing at the Dawn of the 21st Century” in C R Huang and W Lenders (eds) Language and Linguistics Monograph Series B: Frontiers in Linguistics I, pp189-207. Institute of Linguistics, Academia Sinica.
9、邹嘉彦(2005),〈21世纪初的中文处理〉(吕学强翻译),俞士汶、黄居仁编《计算语言学前瞻》(页209-258),北京,商务印书馆。
10、邹嘉彦、莫宇航(2013),〈汉语书面语的历史与现状:海峡两岸汉语书面语近年演变:以语料库为出发点〉,冯胜利编《汉语书面语的历史与现状》(页58-75),北京,北京大学出版社。
11、Tsou, Benjamin, and Kwong, Olivia. (2015). LIVAC as a Monitoring Corpus for Tracking Trends beyond Linguistics. In Tsou, Benjamin, and Kwong, Olivia., (eds.), Linguistic Corpus and Corpus Linguistics in the Chinese Context (Journal of Chinese Linguistics Monograph Series No.25). Hong Kong: The Chinese University Press, pp. 447-471.
12、Tsou, Benjamin. (2016). Skipantism Revisited: Along with Neologisms and Terminological Truncation. In Chin, Chi-on Andy and Kwok, Bit-chee and Tsou, Benjamin K., (eds.), Commemorative Essays for Professor Yuen-Ren Chao: Father of Modern Chinese Linguistics. Taiwan: Crane Publishing. pp. 343-357.
13、Tsou, B. K. (2017). Loanwords in Mandarin Through Other Chinese Dialects. In R. Sybesma, W. Behr, Y. Gu, Z. Handel, C.-T. Huang & J. Myers (Eds.), The Encyclopaedia of Chinese Language and Linguistics(Vol. 2, pp. 641-647). Leiden; Boston: BRILL.
14、Tsou, Benjamin, Lin, H.-L., Chan, T., Hu, J.-P., Chew, C.-H. and Tse, J. (1997). “A Synchronous Chinese Language Corpus from Different Speech Communities: Construction and Application” International Journal of Computational Linguistics and Chinese Language Processing, 2(1), pp.91-104.
15、Kwong, Olivia. Tsou, Benjamin, and Lai, Tom. (2004). “Alignment and Extraction of Bilingual Legal Terminology from Context Profiles.” Terminology, 10(1), pp.81-99.
16、Kwong, Olivia, and Tsou, Benjamin. (2004). “A Synchronous Corpus-Based Study of Verb-Noun Fluidity in Chinese.” Journal of Chinese Language and Computing, 13(3), pp.227-278.
17、Kwong, Olivia, and Tsou, Benjamin. (2005). “A Synchronous Corpus-Based Study on the Usage and Perception of Judgement Terms in the Pan-Chinese Context.” International Journal of Computational Linguistics and Chinese Language Processing, 10(4), pp.519-532.
18、Kwong, Olivia, and Tsou, Benjamin. (2006). “Feasibility of Enriching a Chinese Synonym Dictionary with a Synchronous Chinese Corpus”. Lecture Notes in Computer Science, 4139, pp.322-332.
19、邹嘉彦、邝蔼儿、路斌、蔡永富(2011),〈汉语共时语料库与追踪语料库: 语料库语言学的新方向〉,《中文信息学报: 庆祝中国中文信息学会成立三十周年纪念论文集》,25(6),38-45。