Korean National Corpus

提供者:朱述承

简介

Korean National Corpus是在21st Century Sejong项目支持下建立的,目前的规模是5亿eojuls,收集了现代朝鲜语、国际语料库中的朝鲜语、古朝鲜语和口头民俗文学中的朝鲜语并加以整理。

访问地址

https://ithub.korean.go.kr/user/main.do

创立

1、主语料库建设:用现代语言处理技术处理的现代韩国语语料并进行注释,标记生语料的语义。
2、特殊语料库建设:包括根据时间,地区分类的各类语料库,转录口语表达,平行语料库,国际朝鲜语及历史资料。

标注

1、1998年应用 TEI P3
2、所有语料库文件均包含TEI header和主文档
3、使用SGML进行编码
4、计划将现在的TEI P3转化为TEI P5

应用

1、Sejong Treebank
2、Sejong Morph Tagged Corpus

相关论文

1、Junho, J.P., Jo, Y. and Shin, H. (2010). The KOLON System: Tools for Ontological Natural Language Processing in Korean. Paper presented at the Pacific Asia Conference on Language, Information and Computation. Retrieved February 2, 2015.
2、Kang, B. and Kim H. (2004). Sejong Korean Corpora in the Making. Paper presented at the International Conference on Language Resources and Evaluation. Retrieved February 2, 2015.
3、Kim, H. (n.d.). Korean National Corpus in the 21st Century Sejong Project.