中研院现代汉语平衡语料库

提供者:朱述承

  • 链接:http://lingcorpus.iis.sinica.edu.tw/modern/

  • 简介:台湾中研院现代汉语平衡语料库是由陈克健和黄居仁主持,由台湾中央研究院资讯科学研究所和语言学研究所与计算中心词库小组共同设计开发出的一个大型的现代汉语平衡语料库。该语料库专门针对语言分析设计,对所有语料进行了分词和词性标注的处理。在语料的收集方面,也尽量做到了平衡性,即将现代汉语语料分配到不同的主题和语式上,具有一定的代表性。语料的收集始于1990年前后;于1991年获得蒋经国基金会支持,开始构建语料库;于1994年分别得到中央研究院“中文资讯”跨所研究群专案计划及国科会计划支持,开始对语料进行标注;于1995年7月完成第一版(200万词);于1996年11月由语言学研究所计算中心设计并完成网络版,并开放供各界进行使用;于1997年完成第3版(500万词)。该语料库共分为了7个主题,分别为:文学、社会、科学、哲学、生活、艺术和空白。其中文学语料共计777050个词,1169801字,1385篇;生活语料共计858750个词,1398791字,2301篇;社会语料共计1610997个词,2711720字,3246篇;科学语料共计629838个词,1054738字,994篇;哲学语料共计439955个词,673080字,695篇;艺术语料共计474340个词,781415字,518篇;空白语料共计101394个字,160306词,89篇;共计4892324个词,7949851字,9228篇。

  • 教程:

    • 打开链接后,选择“中文版”或“英文版”进入“简介”界面。
    • 在“简介”界面中,可以浏览现代汉语平衡语料库的简介,点击“中央研究院现代汉语语料库”即可进入语料库的主界面。
    • 目前的4.0版本只可选择在全部语料范围内进行检索,点击“执行”则可进入检索界面。
    • 在“搜索范围一”界面中,可以选择相应的搜索条件,右上角可以设定行宽(50-119),中间可以选择词类(如句副词、语助词等等)、特征(如名物化、外来语等等)、带有词类或特征的关键词或重叠词(AAB、ABB、AABB、ABAB)。点击“清除”可删除输入的内容。
    • 需要注意的是,输入的关键词必须为繁体字。关键词可以由中文繁体字、?(表示任意一个字)、*(表示0至无限多个任意字)组成。
    • 若将“关键词/重叠词”、“词类”和“特征”这三个条件同时设定,则会检索出同时符合三个条件的词,为“and检索条件”。
    • 若需要设置为“or检索条件”,即一次检索两种以上的对象,需要进行“续设条件”。当为单一种条件检索时,需要将第一个对象的各个条件选择输入,然后点击“执行”。当有两种检索条件时,将第一个对象的各个条件输入完毕后,再勾选第二行前的源泉,输入第二个对象的各个条件,点击“执行”;三种条件检索的情况同理。
    • 在语料显示界面,可以选择“显示标记”,查看词类等信息。
    • 在语料显示界面,点击“进阶处理”,可以对语料进行进一步的处理。点击“缩小文献范围”,可以按照指定的语料类型进行检索(但目前只有全部)。点击“排序”,并按需要输入相应的信息,则可根据第一关键词、第二关键词、第三关键词的关键词、词首、词尾或词类进行排序,点击“去除重复”,可以删除重复的语料。点击“词类累计”可以统计这次的语料中关键词上下文中不同词类的出现频次,在右侧的“起”和“迄”可一设置关键词左右的词个数。点击“过滤”可以按照一定的条件对本次的语料进行筛选过滤,可以选择词、重叠词、特征和词类进行过滤,每一种条件都有两种情况可供输入选择,若勾选“反条件”,则表示去除这些条件的语料。点击“Collocation”则可计算词、词类或二者的互信息值或频次,还可以设置“频次下限”。
    • 目前院内检索限制20000行语料,院外检索限制2000行语料。
  • 相关论文:
    • 陈伟. 基于语料库的汉英法律施为动词应用研究[D].华中师范大学,2013.
    • 何婷婷. 语料库研究[D].华中师范大学,2003.