提供者:肖丹、马路遥
一、资源名称
- BCC语料库
二、链接
三、简介
北京语言大学语料库中心(BLCU Corpus Center,简称BCC)是以汉语为主、兼有英语和法语的在线语料库,是服务语言本体研究和语言应用研究的在线大数据系统。BCC语料库总字数约 150 亿字,包括报刊(20 亿)、文学(30 亿)、微博(30 亿)、科技(30 亿)、综合(10 亿)和古汉语(20 亿)等多领域语料,是可以全面反映当今社会语言生活的大规模语料库。BCC语料库具有数据量大、领域广和检索便捷等优点。目前,已经支持了百余篇论文的发表。
- 以汉语为主,兼有其他语种的语言大数据;
- 为语言本体研究提供在线检索系统;
- 为语言本体研究提供建构大数据的语言应用平台;
- 支持云服务;
- 通过API调用方式为开展知识抽取、模型构建提供便利。
四、教程
(1)在线检索
统计
BCC检索式中可以包含词性或短语类型,也可以带通配符。
enter description here筛选
提供二次检索的功能,即在现有的返回结果中保留或者剔除符合检索式的语料实例,得到二次结果。下载
下载检索或统计结果高级
可以设置返回结果的显示形式;可以随机生成实例,如设定上下文显示字数,设定是否以句形式显示结果。
enter description here全文
点击该按钮可以查看检索实例更多的上下文。
enter description here
(2)BCC检索式
汉字串(或者词串)
enter description here通配符“.”、“@”、“~”
enter description here集合符号“[]”
enter description here离合符号“*”
属性约束符号“/”
enter description here空格或者“+”
(3)检索功能
检索式
用户可以在搜索栏中输入检索式,点击“搜索”,进行查询。BCC检索式由字、词和语法标记等单元组成,并且支持通配符和离合查询。词性符号 :输入词性符号,可按照词性符号进行检索。BCC中汉语语料库采用北京大学的词性体系,英语语料库采用美国宾州大学的词性体系。
空格 :隔开2个词性符号
. :表示一个字符
~ :表示一个词
* :用于检索离合的语言片段,例,洗*澡,符合检索式的实例可为“洗一个痛快澡”、“洗一个舒服澡”等。
/ :限制/前的连续串是具有某种词性的词,例,../v ,表示双音节动词。检索设置
点击“多领域”,检索结果将包含报刊、微博等全部领域的检索结果。用户也可以选择在某一领域中检索。选择“自定义”,可以进一步细化某一领域的检索范围,例如,检索范围可细化到文学领域下的《红楼梦》(仅限平台提供的语料)。历时检索
在搜索栏输入字符串,可返回该字符串在历年语料中的频次。结果以图表形式呈现,用户可下载。检索结果处理
每条检索结果包含符合检索式的实例以及上下文信息,用户可以再次基础上进行统计并下载相关结果。- 统计
选择“统计”,可对语料中检索式描述的实例进行统计,用户可以下载统计结果。 - 筛选
选择“筛选”,在弹出窗口中输入某一字符串,选择“保留”或者“排除”,可以返回保留或者排除初次检索结果中含有该字符串的检索结果。 - 下载
选择“下载”,用户可以下载1000条检索结果。 - 高级
选择“高级”,用户可以设置上下文字数、显示顺序等。
- 统计
(4)对比功能
进入“对比”功能,选择“单一来源”,可返回2个检索式在某一领域中的查询结果,结果以词云形式呈现。检索领域可以由用户自定义。
选择“两个来源”,可返回1个检索式在2个不同领域中的检索结果,结果以词云形式呈现。
五、相关论文
(1)荀恩东 饶高奇 肖晓悦 臧娇娇. 大数据背景下BCC语料库的研制[J].语料库语言学,2016.