清华大学的汉语均衡语料库THACorpus

提供者:杜成玉
下载地址:http://www.umist.ac.uk/ctis/research/research-overview.htm

概述

数据来源:https://www.douban.com/note/269081724/

翻译语料库方面则以英国曼彻斯特大学科技学院(UMIST) 翻译研究中心1995年创建的世界上第一个翻译语料库( Translational EnglishCorpus , TEC) 最为著名。该语料库主要收集从各国语言翻译成英语的文本,目前已有上千万词的语料(目标是5 千万词) ,分小说(约占80 %) 传记、报纸和期刊4 个子库。它并不要求必须双语对齐。该库不仅对语料进行了附码标注,还带有许多超语言信息的标注,如对译者情况(包括译者姓名、性别、民族、职业、翻译方向等) 、翻译方式、翻译类型、源语、原书情况、出版社等等均一一予以标注。

相关论文

[1]翟颖华. 面向第二语言教学的现代汉语核心词研究[D].武汉大学,2012.
[2]李素建. 汉语组块计算的若干研究[D].中国科学院研究生院(计算技术研究所),2002.
[3]任海波. 现代汉语AABB重叠式词构成基础的统计分析[A]. 华中师范大学语言与语言教育研究中心.华中语学论库(第二辑)——汉语重叠问题[C].华中师范大学语言与语言教育研究中心:,2000:14.