中研院上古汉语标记语料库

提供者:朱述承
访问地址:http://lingcorpus.iis.sinica.edu.tw/ancient/

概述

“中央研究院上古汉语标记语料库”是“中央研究院古汉语语料库”(Academia Sinica Ancient Chinese Corpus)的一个次语料库。“中央研究院古汉语语料库”是应汉语史研究需求而建构的语料库。这个语料库又可依是否经过断词及加标词类而分成两类,即未加标的素语料库以及有标注的标记语料库。目前素语料库所收集的语料已含盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的重要语料,并已陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供线上检索。“中央研究院古汉语语料库”的建构始于一九九0年,创始者为黄居仁(语言所研究员)、谭朴森(英国伦敦大学亚非学院教授)、陈克健(资讯所研究员)、魏培泉(语言所研究员)等,最初的经费来源为蒋经国基金会及中央研究院历史语言研究所,目标是收集上古汉语的素语料。素语料库的构建自此未曾停歇,语料也由上古汉语扩充到中古汉语和近代汉语。

使用限制

院内检索限制两万行资料,院外检索限两千行资料。

功能简介

透过这个语料库的介面可以进行下列几项工作:
一、检索:首先进入“自订语料库”的画面,设定文献的搜寻范围,接著进入“内容检索”与“进阶处理”的画面,在自订语料库范围内针对词项、词头、词尾、词类、词类特征、重叠词型态……等进行检索以及进阶检索;
二、显示:有两种资料,“在关键词检索典”画面上,将检索到的资料依句显示在屏幕上,“文本”的画面出现该关键词所出现的该章回段落;
三、过滤:依照使用者设定的条件筛选语料;
四、词类累计:统计每个词类出现的数量;
五、统计共现率(collocation);
六、排序:针对使用者设定的条件将语料依序排列。

文献内容

尚书 诗经 周易 仪礼 周礼
礼记 春秋公羊传 春秋穀梁传 左传 国语
战国策 论语 孟子 墨子 庄子
荀子 韩非子 吕氏春秋 老子 商君书
管子 晏子 孙子 大戴 韩诗外传
吴子 尉缭 六韬 司马法 慎子
通玄真经(文子) 关尹子 鶡冠子 邓析子 孝经
素问 灵枢 孔子家语 孔丛子 史记
新语 春秋繁露 淮南 新序 说苑
新书 马王堆汉墓帛书(一) 睡虎地秦墓竹简