CCL语料库

提供者:崔欣、邢丹、韦国睿

网址:http://ccl.pku.edu.cn:8080/ccl_corpus/index.jsp

一、简介

CCL语料库即北京大学现代汉语语料库,由北京大学中国语言学研究中心(Center for Chinese Linguistics PKU)开发,期间得到了北京大学计算语言学研究所、中科院计算技术研究所等单位的大力支持和帮助。

CCL语料库及其检索系统为纯学术非盈利性质,语料库中的中文文本未经分词处理,检索系统以汉字为基本单位。CCL汉语语料库总字符数为783463175,其中现代汉语语料库总字符数为581794456,古代汉语语料201,668,719字。语料库中所包含的语料涉及的文献时间从公元前11世纪-当代,所涉及的文献也种类颇丰。

该语料库多用于对现代汉语中的语言现象进行分析、与国外语料库做对比研究等。在使用时,使用者应自行核对语料的准确性,再根据语料进行研究。

CCL的语料库有部分口语(北京话调查)语料,包含部分影视作品(如百家讲坛、周星驰电影等)语料,网络语料,书面语语料。其中,报纸语料占绝对大比例。CCL最新一次更新,增加了许多学术论文语料;此外CCL还有古代汉语和中英双语语料库,其中双语语料库不对外。 CCL是生语料库(除了分类、题目、作者等元信息外),正文部分未经过任何加工处理。支持复杂检索表达式(比如不相邻关键字查询,指定距离 查询,等等);支持对标点符号的查询(比如查询“?”可以检索语料库 中所有疑问句);支持在“结果集”中继续检索;用户可定制查询结果的显示方式(如左右长度,排序 等);用户可从网页上下载查询结果(text文件); CCL提供了丰富的,针对字符串的检索功能,尤其是模式匹配,让生语料库也可以满足多样性的研究需求;可以下载所有检索结果,这一点非常开放(结合左右最多显示字数,可以下载完整的检索结果)

二、使用教程A

CCL语料库的查询分为普通查询、批量查询和模式查询。对于查询内容也可以进行选择,分为现代汉语和古代汉语,在“选择范围”中还可以具体到朝代和时期。

1、普通查询:

我们可以输入三种形式的关键词,分别是:纯文本、文本+符号、文本+符号+数字

·纯文本:即不包括任何特殊符号和空格的文字。

·文本+符号:这一类中可以使用的符号有【空格】(文本【空格】文本…)和|(文本|文本|文本…)。

·文本+符号+数字:这一类型有两种的格式。文本+“$/#/+/-/~”+数字+文本、 文本+“$/#/+/-/~”+数字+“!”+文本。

在普通查询中具有九种符号,分别是(空格)、 | 、$ 、# 、+ 、- 、~ 、! 、 :

·(空格) 相当于“并”,同时搜索被空格隔开的关键词,显示的结果是全部内容中同时包含所搜索的关键词的文章,显示分别包含关键词的句子。

·| 相当于“或”,显示的结果为包含关键词其中之一的文章中的句子。

·$ 表示按照所写关键词从左到右的顺序出现在同一句中,关键词之间相隔的字符数小于等于数字,如:我$10你,搜索出的句子中我、你间隔小于等于10。

·# 表示关键词同时出现在同一句的句子,不考虑前后次序,关键词之间的间隔小于等于数字。

·+ 表示按照关键词从左到右的顺序出现在同一句中,关键词之间的间隔正等于数字。

·- 表示按照关键词从左到右的顺序出现,且查询的关键词之间距离大于数字,如我-10你,搜索出的句子中,你出现在我的右侧,且距离大于10。

·~ 表示按照关键词从右到左的顺序出现,且查询的关键词之间距离大于数字,如我~10你,搜索出的句子中,你出现在我的左侧,且距离大于10。

·! 表示它后面的关键词是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。

·: 使用方法author:作者名、name:篇名、type:类型、ch:中文句子、pattern:特殊模式(如叠词AABB等)、translator:译者、enname:英文篇名等关键字后面,用于分隔关键字和它们的取值。如:name:诗经

(注意:上述符号均要使用英语格式)

2、批量查询

可以上传要查询的文件,最多字数30字,要求文件里是全部符合普通查询表达式(但是在使用时没有出结果,暂没有找到原因)。

3、模式查询

如果我们想要查询“越…越…”,查询表达式为“越(A)越(B)”,如果前后想要查询一致的词语可以写为“越(A)越(A)”,A、B可用任何字母代替,大小写不限。

所查询的A和B都可以约束长度,表达方式为“(A,=3)”,表示要求A的长度为3;“(A,<5)”,表示要求A的长度不超过5;“(A,3-9)”,表示要求A的长度介于3-9之间。

例如:“越(A,<5)越(B,3-9)”,表示要求A的长度小于等于5,B的长度在3-9之间。

三、使用教程B

1.打开页面进入北京大学中国语言文学研究中心选择古汉、现汉,可根据需要选择进入普通、批量、模式查询检索。
2.CCL语料库语料分类分布情况、语料库文件详细目录、语料库字符统计详细信息、汉英句对齐语料库规模及语料类型详见http://ccl.pku.edu.cn:8080/ccl_corpus/corpus_statistics.html 
3.首先CCL可进行简单查询,查询表达式可以是以下形式的序列:(1)子句,(2)子句1 子句2  ...(子句和子句之间需要以空格隔开,表示逻辑“AND”关系),使用$+操作符的查询表达式, $ 符号表示间隔小于等于,如“把$10给”表示返回“把”与“给”之间少于10个字符的句子。查询表达式支持多个“$”连用,如查询“被$10把$3给$2了”,表示 “被、把、给、了”四个关键字在一个句子中共现,并且相互之间有间隔字符的要求,“被”在“把”前出现,二者之间间隔小于10个字符。+ 符号表示间隔等于,如“把+10给”表示返回“把”与“给”之间等于10个字符的结果。查询表达式支持多个“$”或“+”连用,如支持查询“我$10你$3他$2 了” “你+3他+2了”。此外系统也支持“$”与“+”的组合搜索,如“我$10你+3他$2了”, 该查询表示返回“我” 和“你”间隔小于等于10,“你”和“他”间隔等于3,“他”和“了”间隔小于等于2。
4.其次批量查询,用户可以上传查询文件,文件中可以包含多个普通查询可接受的表达式,默认允 许的最大查询数为30。文件格式为:每一行是个合法的查询表达式。返回的查询结果是一个网页(html文件),其中列出每一个查询表达式命中 的结果的个数,每一个查询表达式后的结果个数上有一个超链接,点击后可进入该 查询表达式对应的具体查询结果。
5.模式查询,在模式查询页面,用户可以检索特定的模式,比如“爱V 不 V” “有 X V X”;其中,模式“爱V 不 V”表示查询“爱”跟“不”之间间隔一个字(或词),用户可以指定V的字符个数(长度),两个V是相同的字符串。模式“有X V X”表示查询字符串中包括“有”,“有”后面紧跟的字符串“X”间隔字符串“V”后又重复出现一次,字符串“V”跟字符串“X”不相同。
6.在普通查询、批量查询、模式查询页面,系统都提供了“选择范围”按钮,点击 该按钮,系统弹出语料库目录结构的树状显示,用户可以通过鼠标点击选取框checkbox来指定查询范围。语料库文件目录的树状结构可以在网页上“展开-收缩”显示,每个节点前有一 个选取框(checkbox),如果选中一个节点,则默认情况下,该节点的所有子孙节点都被选中,反之。如果清除一个子节点,默认情况下,该节点的所有子 孙节点都被清除。对于复杂的查询要求,可以尝试通过多次查询完成,即利用“在结果中查找”功 能,逐次逼近检索目标。 “在结果中检索”的功能是指在上一次检索基础上,用户输入新的查找条件,然后点击“在结果中检 索”按钮,系统会将此次用户输入的查找条件跟上一次的查找条件(LastQuery)合并(AND运算),执行一次查询。查询结果是上一次查询结果的一个 子集。比如:您想查找“宁可……也”的例句,同时不希望“也”后面出现“不”这样 的否定词。可以先输入查询表达式“宁可$10也”,返回的结果是包含“宁可”和 “也”,且二者相隔10字以内的句子,然后再输入查询表达式“也-4不”,这样就可以把“也”后面4字范围内有“不”的句子剔除掉了。 

四、使用教程C

CCL语料库有三种查询模式,可以依据不用的表达式查找相应的内容,也可以在结果中继续查询,还可以上传本地文件进行查询,以下是普通查询、批量查询和模式查询的使用介绍:
一 普通查询
1.1 查询表达式简介
查询表达式由操作符、基本项、简单项、复杂项、过滤项、子句等构成。下面依 次介绍这些单元。
1.1.1 操作符
查询表达式中可以使用的特殊符号包括9个:SPACE | $ # + - ~ ! :
这些符号分为四组:
Operator1: SPACE |
Operator2: $ # + - ~

Operaotr3: !
Operator4: :
符号的含义如下:
(一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”
(1) SPACE(空格)相当于逻辑中的“并”关系。
(2) | 相当于逻辑中的“或” 关系。
(二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”
(3) $ 表示它两边的“简单项”按照左边 在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小 于或等于Number

(4) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number

(5) + 表示它两边的“简单项”按 照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚 好等于Number
(6) - 表示它左边的“简单项”出现于句子中,并且,在右边 相隔Number个字的范围内,-号右边的“简单项”不出现。
(7) ~ 表示它左边的“简单项”出现于句子中,并且,在左边 相隔Number个字的范围内,~号右边的“简单项”不出现。
除 $ 和 + 操作符外,Operator2不能连续多次使用,即只能用Operator2连接两项:A Operator2 B,形成查询表达式。
Operator2中的 $ 和 + 可以连续多次使用,且可以混合使用。见1.2小节的说明。
(三)Operator3:Operator3是一元操作符。
(8) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来 进行定位。
(四)Operator4:西文冒号 : 是分隔符(delimiter)
(9) : 跟在 author,name,type,pattern 等关键字后面,用于分隔关键字和它们的取值。这样形成的查询式称之为“过滤项”(见下面 1.1.5)
1.1.2 基本项
指不包含特殊符号和空格的连续字符串
1.1.3 简单项
简单项可以由以下三种形式的序列组成
(1) 基本项
(2) 基本项1 Operator1 基本项2 Operator1 …
(3) (基本项1 Operator1 基本项2 Operator1 …)
1.1.4 复杂项
复杂项可以由以下三种形式的序列组成
(1) 简单项
(2) 简单项1 Operator2 Number 简单项2
(3) 简单项1 Operator2 Number Operator3 简单项2
其中第二种形式,等价于 Operator3 简单项1 Operator2 Number 简单项2,换句话说,如果以第一个简单项作为查询结果的显示中心,!可以省略。
1.1.5 过滤项
过滤项可以包含以下表达式:
(1)author:简单项
(2)name:简单项
(3)type:简单项
(4)pattern:简单项
(5)ch:简单项
(6)en:简单项
(7)translator:简单项
(8)enname:简单项
说明:
– “author:简单项”的含义是指“author”关键字后面跟的表达式是上面1.1.3“简单项”所定义的字符串,其余类推 。
– 通过指定过滤项中author(作者),name(篇名),type(文章类型),ch(中文句子),en(英文句子),用户可以缩小查询语料的范围。
– 过滤项pattern专门用于查询汉语中的各种模式,比如“AABB”这样的重叠形式,“AB不AB”这样的反复问形式,等等。
– 过滤项关键字(5)-(8),即ch,en,translator(译者) enname(英文篇名)等是汉英双语语料库检索系统专用的,其余关键字既可用于现代汉语、古代汉语语料库检索系统,也可以用于汉英双语语料库检索系统。
举例:
例1: 想查询“老舍”的语料,在查询表达式中输入“author:老舍”即可;

例2: 想查询“老舍”先生的文章中“A来A去”的用法,在查询表达式中输入“author:老舍 pattern:A来A去”即可。

例3: 查询 ch:以太网 en:Ethernet

意思是:查出汉语句子中包含“以太网”,英语句子中包含“Ethernet”的汉英对照句对 儿。
(ch表示其后字符串查询范围为汉语句子;en表示其后字符串查询范围为英 语句子。)

1.1.6 子句
子句可以是以下两类表达式:
(1) 复杂项
(2) 过滤项

1.1.7 查询表达式
查询表达式可以是以下形式的序列:
(1) 子句
(2) 子句1 子句2 …

(子句和子句之间需要以空格隔开,表示逻辑“AND”关系)
1.2  使用 $ + 操作符的查询表达式
$ 符号表示间隔小于等于,如“把$10给”表示返回“把”与“给”之间少于10个字符的句子。

查询表达式支持多个“$”连用,如查询“被$10把$3给$2了”,表示 “被、把、给、了”四个关键字在一个句子中共现,并且相互之间有间隔字符的要求,“被”在“把”前出现,二者之间间隔小于10个字符。

  • 符号表示间隔等于,如“把+10给”表示返回“把”与“给”之间等于10个字符的结果。
    查询表达式支持多个“$”或“+”连用,如支持查询“我$10你$3他$2 了” “你+3他+2了”。
    此外系统也支持“$”与“+”的组合搜索,如“我$10你+3他$2了”, 该查询表示返回“我” 和“你”间隔小于等于10,“你”和“他”间隔等于3,“他”和“了”间隔小于等于2。

二 批量查询
用户可以上传查询文件,文件中可以包含多个普通查询可接受的表达式,默认允 许的最大查询数为30。
文件格式为:每一行是个合法的查询表达式。
返回的查询结果是一个网页(html文件),其中列出每一个查询表达式命中 的结果的个数,每一个查询表达式后的结果个数上有一个超链接,点击后可进入该 查询表达式对应的具体查询结果。

三 模式查询
在模式查询页面,用户可以检索特定的模式,比如“爱V 不 V” “有 X V X”;其中,模式“爱V 不 V”表示查询“爱”跟“不”之间间隔一个字(或词),用户可以指定V的字符个数(长度),两个V是相同的字符串。模式“有X V X”表示查询字符串中包括“有”,“有”后面紧跟的字符串“X”间隔字符串“V”后又重复出现一次,字符串“V”跟字符串“X”不相同。

3.1 模式查询表达式
为了与文本中的字母进行区分,要求匹配的变量字符用括号括起来。比如查找模 式“爱V 不 V”,其对应的查询表达式为“爱(V)不(V)”。V的长度也可以指定,比如:
查询表达式为“爱(V,=3)不(V)”,表示要求V的长度为3;
查询表达式为“爱(V,<5)不(V)”,表示要求V的长度 不超过5;
查询表达式为“爱(V,2-5)不(V)”,表示要求V的长度介于2-5之 间。
注意:
(1)模式查询针对的语料并未分词。因此,查询“爱(V)不(V)”,也可 以匹配上“恩爱得不得了”。
(2)模式查询仅是形式意义上的匹配。不见得匹配上的实例在语义上也符合模 式的要求。比如查询“爱(V)不(V)”,也可以匹配上“他的全部的爱是不是在羞辱中消 失了”。这里的“爱是不是”不符合一般的“爱v不v”的语义模式。
(3)上 面举例中,模式查询表达式“爱(V)不(V)”的V并不表示动词(Verb),而是代号,写作X,x等等其他符号也可以,指代任意字符。因此,查询“爱(V) 不(V)”,也可以匹配上“少年,认真的恋个爱 好不好”

3.2 模式查询结果页面的显示
“模式查询”的默认结果页面跟“普通查询”的结果页面相同,参见下面第四节的说明。
在“模式查询”的结果页面上,还增加了一个“统计”按钮。点击“统计”按钮,系统对“模式查询”表达式中的“变项(如x,v等)”进行 计数,并可以按照频次降序或频次升序输出。例如:查询“爱(x)不(x)”模式,返回的默认结果页面为:

共有236条结果

点击“统计”按钮后,返回结果为:
共有43条结果
爱动不动: 3 ; (x,动)
爱去不去: 2 ; (x,去)
爱打不打: 1 ; (x,打)
爱念不念: 1 ; (x,念)
爱怕不怕: 1 ; (x,怕)
爱戒不戒: 1 ; (x,戒)
爱懂不懂: 1 ; (x,懂)
爱用不用: 1 ; (x,用)
……
根据这个统计结果可以知道,在CCL语料库中,“爱V不V”中的V有:

动,去,打,念,怕,戒,懂,用,……

四 选择查询范围
在普通查询、批量查询、模式查询页面,系统都提供了“选择范围”按钮,点击 该按钮,系统弹出语料库目录结构的树状显示,用户可以通过鼠标点击选取框checkbox来指定查询范围。
语料库文件目录的树状结构可以在网页上“展开-收缩”显示,每个节点前有一 个选取框(checkbox),如果选中一个节点,则默认情况下,该节点的所有子孙节点都被选中,反之。如果清除一个子节点,默认情况下,该节点的所有子 孙节点都被清除。

六 在结果中检索
对于复杂的查询要求,可以尝试通过多次查询完成,即利用“在结果中查找”功 能,逐次逼近检索目标。
“在结果中检索”的功能是指在上一次检索基础上,用户输入新的查找条件,然后点击“在结果中检 索”按钮,系统会将此次用户输入的查找条件跟上一次的查找条件(LastQuery)合并(AND运算),执行一次查询。查询结果是上一次查询结果的一个 子集。
比如:您想查找“宁可……也”的例句,同时不希望“也”后面出现“不”这样 的否定词。
您可以先输入查询表达式“宁可$10也”,返回的结果是包含“宁可”和 “也”,且二者相隔10字以内的句子,然后您再输入查询表达式“也-4不”,这样就可以把“也”后面4字范围内有“不”的句子剔除掉了。

五、相关文献

[1]陈博聪. 基于现代汉语语料库的“纠结”义项分析[J]. 现代语文(语言研究版),2017(08)

[2]高文成 张丽芳. 英汉语双名词内向结构认知对比研究——基于BNC和CCL语料库[J]. 西安外国语大学学报,2013(02)

[3]李水. 认识立场标记“我认为”“我觉得”比较研究初探——基于现代汉语语料库的研究[J]. 沈阳工程学院学报(社会科学版),2016(01)

[4]李秀萍. 基于语料库的现代汉语教学方法研究[J]. 现代营销(学苑版),2011(10)

[5]孙东平 郑琳. CCL语料库视野下的“位”字研究[J]. 和田师范专科学校学报,2015(03)

[6]王超. 关于CCL和COCA在线语料库使用方法的研究[J].才智,2014(28)

[7]俞士汶 段慧明 朱学锋 孙斌. 北京大学现代汉语语料库基本加工规范[J]. 中文信息学报,2002(05)

[8]俞士汶 段慧明 朱学锋 孙斌. 北京大学现代汉语语料库基本加工规范(续)[J]. 中文信息学报,2002(06)

[9]朱晓敏. 基于COCA语料库和CCL语料库的翻译教学探索[J]. 外语教学理论与实践,2011(01)

[10]詹卫东、郭锐、谌贻荣,2003,北京大学中国语言学研究中心CCL语料库(规模:7亿字;时间:公元前11世纪-当代),网址: http://ccl.pku.edu.cn:8080/ccl_corpus