传媒语言语料库在线分词标注系统

提供者:朱述承
原文地址:http://ling.cuc.edu.cn/cucseg/

简介

传媒语言语料库在线分词标注系统是由中国传媒大学国家语言资源检测与研究有声媒体中心有声媒体语言资源网开发的分词标注系统

使用指南

本系统有三组选项,分别是“切分颗粒度选项”、“词性输出选项”和“标记集选项”。

切分颗粒度选项:
“切分颗粒度选项”有两个选项值,分别是“粗粒度”和“细粒度”。这两个选项值的主要区别表现在以下几个方面:
l 汉族(包括日本、韩国人名中能明显识别出姓和名的)人名中姓和名的分合
l 组合型机构名、地名和其他专名的分合
l 组合型时间表达式的分合
l 组合型数字表达式的分合
l 组合型量词表达式的分合
1)“细粒度”
指按较小颗粒度原则进行切分,上述几项都切开。如汉族人名切成“李/snr 玉山/nr”;组合型机构名切成“北京/ns 大学/n”;组合型地名切成“湖南省/ns 长沙市/ns”;组合型其他专名切成“人民/n 日报/n”;组合型时间表达式切成“今天/t 下午/t”;组合型数字表达式切成“三/m 百/m 二/m 十/m 一/m”;组合型量词表达式切成“元/q //w 平方米/q”。
2)“粗粒度”
指按较大颗粒度原则进行切分,上述几项都不再切开。如汉族人名切成“李玉山/nr”;组合型机构名切成“北京大学/nt”,组合型地名切成“湖南省长沙市/ns”;组合型其他专名切成“人民日报/nz”;组合型时间表达式切成“今天下午/t”;组合型数字表达式切成“三百二十一/m”;组合型量词表达式切成“元/平方米/q”。

词性输出选项:
由于一个单词可能有多个兼类词性,因而设置了“词性输出选项”,该选项有三个值,分别是“单词性”、“所有词性”和“无词性”。

1)“单词性”
指每个单词只标注一个词性,这个词性就是分词系统为单词选择的最佳词性。
2)“所有词性”
如果切分结果中一个单词有多个兼类词性,则在小括号中显示该单词的全部兼类词性。例如,“的”字的切分结果可能显示为“的/u(Dg-Ng-u)”。“的”字后面的“/u”表示该切分中确定的词性,而小括号中的“Dg-Ng-u”包括了“的”字的所有兼类词性,不同词性之间用‘-’分隔。
3)“无有词性”
输出切分结果中不包含词性。

标记集选项:
本系统为切分结果提供了不同词性标记集的选择,可选的词性标记集有“CUC(中传)”词性标记集和“PKU(北大)”词性标记集。

1)“CUC(中传)”
使用中国传媒大学国家语言资源监测与研究有声媒体中心制定的词性标记集,该标记集以北京大学计算语言学研究所制定的切分标记集为基础,并在此基础上进行了细分,个别地方略有改动,详情请见下表尾部的说明。
2)“PKU(北大)”
使用北京大学计算语言学研究所制定的词性标记集。