中研院近代汉语标记语料库

提供者:朱述承
访问地址:http://lingcorpus.iis.sinica.edu.tw/early/

概述

“中央研究院近代汉语标记语料库”是“中央研究院古汉语语料库”(Academia Sinica Ancient Chinese Corpus)的一个次语料库。“中央研究院古汉语语料库”是应汉语史研究需求而建构的语料库。这个语料库又可依是否经过断词及加标词类而分成两类,即未加标的素语料库以及有标注的标记语料库。目前素语料库所收集的语料已含盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的重要语料,并已陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供线上检索。“中央研究院古汉语语料库”的建构始于一九九0年,创始者为黄居仁(语言所研究员)、谭朴森(英国伦敦大学亚非学院教授)、陈克健(资讯所研究员)、魏培泉(语言所研究员)等,最初的经费来源为蒋经国基金会及中央研究院历史语言研究所,目标是收集上古汉语的素语料。素语料库的构建自此未曾停歇,语料也由上古汉语扩充到中古汉语和近代汉语。本语料库的查询功能和断词标类的标准,与“中央研究院现代汉语平衡语料库”大致相同,但也有其特色:如在查询功能方面,可以在显示词项及其词类的同时,显示例句的出处,便于历史语法的研究者使用;在断词标类的凭准方面,也因着眼不同而作了一些变动,如动补结构标示的较详尽即为一例。

使用限制

院内检索限制两万行资料,院外检索限两千行资料。

功能简介

透过这个语料库的介面可以进行下列几项工作:
一、检索:首先进入“自订语料库”的画面,设定文献的搜寻范围,接著进入“内容检索”与“进阶处理”的画面,在自订语料库范围内针对词项、词头、词尾、词类、词类特征、重叠词型态……等进行检索以及进阶检索;
二、显示:有两种资料,“在关键词检索典”画面上,将检索到的资料依句显示在屏幕上,“文本”的画面出现该关键词所出现的该章回段落;
三、过滤:依照使用者设定的条件筛选语料;
四、词类累计:统计每个词类出现的数量;
五、统计共现率(collocation);
六、排序:针对使用者设定的条件将语料依序排列。

文献内容

敦煌变文集新书 祖堂集 大唐三藏取经诗话 新刊大宋宣和遗事 永乐大典戏文三种
五代史平话 全相平话五种 关汉卿戏曲集 元刊杂剧三十种 老乞大谚解
朴通事谚解 水浒传 西游记 金瓶梅 平妖传
醒世姻缘 儒林外史 红楼梦 岐路灯