世界语言资源平台

  • 首页
  • 标签
  • 归档

中研院现代汉语平衡语料库

发表于 2018-03-07

提供者:朱述承

  • 链接:http://lingcorpus.iis.sinica.edu.tw/modern/

  • 简介:台湾中研院现代汉语平衡语料库是由陈克健和黄居仁主持,由台湾中央研究院资讯科学研究所和语言学研究所与计算中心词库小组共同设计开发出的一个大型的现代汉语平衡语料库。该语料库专门针对语言分析设计,对所有语料进行了分词和词性标注的处理。在语料的收集方面,也尽量做到了平衡性,即将现代汉语语料分配到不同的主题和语式上,具有一定的代表性。语料的收集始于1990年前后;于1991年获得蒋经国基金会支持,开始构建语料库;于1994年分别得到中央研究院“中文资讯”跨所研究群专案计划及国科会计划支持,开始对语料进行标注;于1995年7月完成第一版(200万词);于1996年11月由语言学研究所计算中心设计并完成网络版,并开放供各界进行使用;于1997年完成第3版(500万词)。该语料库共分为了7个主题,分别为:文学、社会、科学、哲学、生活、艺术和空白。其中文学语料共计777050个词,1169801字,1385篇;生活语料共计858750个词,1398791字,2301篇;社会语料共计1610997个词,2711720字,3246篇;科学语料共计629838个词,1054738字,994篇;哲学语料共计439955个词,673080字,695篇;艺术语料共计474340个词,781415字,518篇;空白语料共计101394个字,160306词,89篇;共计4892324个词,7949851字,9228篇。

  • 教程:

    • 打开链接后,选择“中文版”或“英文版”进入“简介”界面。
    • 在“简介”界面中,可以浏览现代汉语平衡语料库的简介,点击“中央研究院现代汉语语料库”即可进入语料库的主界面。
    • 目前的4.0版本只可选择在全部语料范围内进行检索,点击“执行”则可进入检索界面。
    • 在“搜索范围一”界面中,可以选择相应的搜索条件,右上角可以设定行宽(50-119),中间可以选择词类(如句副词、语助词等等)、特征(如名物化、外来语等等)、带有词类或特征的关键词或重叠词(AAB、ABB、AABB、ABAB)。点击“清除”可删除输入的内容。
    • 需要注意的是,输入的关键词必须为繁体字。关键词可以由中文繁体字、?(表示任意一个字)、*(表示0至无限多个任意字)组成。
    • 若将“关键词/重叠词”、“词类”和“特征”这三个条件同时设定,则会检索出同时符合三个条件的词,为“and检索条件”。
    • 若需要设置为“or检索条件”,即一次检索两种以上的对象,需要进行“续设条件”。当为单一种条件检索时,需要将第一个对象的各个条件选择输入,然后点击“执行”。当有两种检索条件时,将第一个对象的各个条件输入完毕后,再勾选第二行前的源泉,输入第二个对象的各个条件,点击“执行”;三种条件检索的情况同理。
    • 在语料显示界面,可以选择“显示标记”,查看词类等信息。
    • 在语料显示界面,点击“进阶处理”,可以对语料进行进一步的处理。点击“缩小文献范围”,可以按照指定的语料类型进行检索(但目前只有全部)。点击“排序”,并按需要输入相应的信息,则可根据第一关键词、第二关键词、第三关键词的关键词、词首、词尾或词类进行排序,点击“去除重复”,可以删除重复的语料。点击“词类累计”可以统计这次的语料中关键词上下文中不同词类的出现频次,在右侧的“起”和“迄”可一设置关键词左右的词个数。点击“过滤”可以按照一定的条件对本次的语料进行筛选过滤,可以选择词、重叠词、特征和词类进行过滤,每一种条件都有两种情况可供输入选择,若勾选“反条件”,则表示去除这些条件的语料。点击“Collocation”则可计算词、词类或二者的互信息值或频次,还可以设置“频次下限”。
    • 目前院内检索限制20000行语料,院外检索限制2000行语料。
  • 相关论文:
    • 陈伟. 基于语料库的汉英法律施为动词应用研究[D].华中师范大学,2013.
    • 何婷婷. 语料库研究[D].华中师范大学,2003.

国家语委现代汉语语料库

发表于 2018-03-07

提供者:张琪

链接地址:

http://www.cncorpus.org/

简介:

国家语委现代汉语语料库是一个大规模的平衡语料库,语料选材类别广泛,时间跨度大。在线提供检索的语料经过分词和词性标注,可以进行按词检索和分词类的检索。该语料库于1991年12月由国家语言文字工作委员会提出立项,1998年底建成,被列为国家语委“九五”“十五”科研重大项目,得到国家科技部“863”“973”计划多个项目支持(“智能中文信息处理平台”“图像、语音和自然语言理解”“中文信息处理应用基础研究”)。

国家语委现代汉语通用平衡语料库全库约为1亿字符,其中1997年以前的语料约7000万字符,均为手工录入印刷版语料;1997之后的语料约为3000万字符,手工录入和取自电子文本各半。标注语料库为国家语委现代汉语通用平衡语料库全库的子集,约5000万字符。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。

除了在线的现代汉语平衡语料库之外,网站还提供以下各类工具的下载,如现代汉语语料库、在线语料库字词频数据、语料处理软件工具现代汉语字表,以方便研究人员自行使用。本文只介绍在线语料库的使用情况及教程。本语料库是一个有词类标记的语料库,语料库检索结果的语料可以输出为生语料或标记语料。

教程:

三种查询模式

1、整词匹配:使用整词索引进行查询,多关键词时忽略顺序,速度快,多关键词查询时任一关键词未被索引则不能返回结果。

2、模糊匹配:模糊匹配最易查全,多关键词时考虑顺序,速度较慢,无停用词,可查询词类串。

3、全文检索:使用全文检索方式进行查询,多关键词时忽略顺序,速度快,但不能检索“的、了”等极高频词。

查询方法:

查询条件由一个或多个关键词组成。

关键词分为以下几类:

1、单一关键词:

  • 字或词,如:文、语言
  • 词+这个词的词类,词类标识符为“/”,如:语言/n、制定/v

2、多关键词:

在整词匹配查询模式里—

  • 表示and关系,用+连接或用空格隔开,多关键词可以是词串,如:语言 文字,可以是限制词类的词串,如语言/n 文字/n,也可以是连续词类串,如: /v /u /m /v
  • 表示or关系,用@连接,如语言@文字
  • 表示not关系,用-连接,如语言-文字

在全文检索查询模式里—

可以利用查询表达式选择显示出研究者想要的结果。

  • 两个关键词共现,之间的距离小于3,如:吃/v+<3+亏/n
  • 动词“吃”3个词内不共现副词“不”,如:(!不/d+<3)吃/v
  • 动词“吃”前后3个词内都不共现副词“不”,如:(!不/d+<3)吃/v(<3+!不/d)

*注意:表达式中的数字即距离是以词为单位的,共现项也是以词为单位,如果在语料标注中“不好”整词标注为/a,是不能作为“不/d”处理的。

语料字词检索

语料库在线提供一种特殊的检索,不是在整句语料中检索,而是是在各个分词单位中进行检索,查询条件中的关系有四种,分别是是等于、包含、开头是、结尾是,然后输入想要查询的字词,对于研究词类的聚合关系或构词的组合关系都很有帮助。

比如:查询“包含”“狗”的词,结果按词频分别为第一位的” 狗”,出现频次791,频率0.0828,第二位是”走狗”,出现频次72,频率0.0075,第三位”黑狗”,出现频次57,频率0.0060,后面依次为”花狗”、”狗腿子”等。

相关论文:

  1. 张松松,袁煜,龚箭,张薇.基于国家语委语料库的汉语起始动词认知研究方法[J].外国语言文学,2016,33(04):238-248+288.
  2. 苏新春.国家语委“通用语料库·核心库”的词表提取及词汇构成分析[J].江苏大学学报(社会科学版),2007(01):75-82.
  3. 刘金哲.辨析“幸亏”与“好在”——基于国家语委语料库的研究[J].现代语文(语言研究版),2009(07):48-50.

CCL语料库

发表于 2018-03-07

提供者:崔欣、邢丹、韦国睿

网址:http://ccl.pku.edu.cn:8080/ccl_corpus/index.jsp

一、简介

CCL语料库即北京大学现代汉语语料库,由北京大学中国语言学研究中心(Center for Chinese Linguistics PKU)开发,期间得到了北京大学计算语言学研究所、中科院计算技术研究所等单位的大力支持和帮助。

CCL语料库及其检索系统为纯学术非盈利性质,语料库中的中文文本未经分词处理,检索系统以汉字为基本单位。CCL汉语语料库总字符数为783463175,其中现代汉语语料库总字符数为581794456,古代汉语语料201,668,719字。语料库中所包含的语料涉及的文献时间从公元前11世纪-当代,所涉及的文献也种类颇丰。

该语料库多用于对现代汉语中的语言现象进行分析、与国外语料库做对比研究等。在使用时,使用者应自行核对语料的准确性,再根据语料进行研究。

CCL的语料库有部分口语(北京话调查)语料,包含部分影视作品(如百家讲坛、周星驰电影等)语料,网络语料,书面语语料。其中,报纸语料占绝对大比例。CCL最新一次更新,增加了许多学术论文语料;此外CCL还有古代汉语和中英双语语料库,其中双语语料库不对外。 CCL是生语料库(除了分类、题目、作者等元信息外),正文部分未经过任何加工处理。支持复杂检索表达式(比如不相邻关键字查询,指定距离 查询,等等);支持对标点符号的查询(比如查询“?”可以检索语料库 中所有疑问句);支持在“结果集”中继续检索;用户可定制查询结果的显示方式(如左右长度,排序 等);用户可从网页上下载查询结果(text文件); CCL提供了丰富的,针对字符串的检索功能,尤其是模式匹配,让生语料库也可以满足多样性的研究需求;可以下载所有检索结果,这一点非常开放(结合左右最多显示字数,可以下载完整的检索结果)

二、使用教程A

CCL语料库的查询分为普通查询、批量查询和模式查询。对于查询内容也可以进行选择,分为现代汉语和古代汉语,在“选择范围”中还可以具体到朝代和时期。

1、普通查询:

我们可以输入三种形式的关键词,分别是:纯文本、文本+符号、文本+符号+数字

·纯文本:即不包括任何特殊符号和空格的文字。

·文本+符号:这一类中可以使用的符号有【空格】(文本【空格】文本…)和|(文本|文本|文本…)。

·文本+符号+数字:这一类型有两种的格式。文本+“$/#/+/-/~”+数字+文本、 文本+“$/#/+/-/~”+数字+“!”+文本。

在普通查询中具有九种符号,分别是(空格)、 | 、$ 、# 、+ 、- 、~ 、! 、 :

·(空格) 相当于“并”,同时搜索被空格隔开的关键词,显示的结果是全部内容中同时包含所搜索的关键词的文章,显示分别包含关键词的句子。

·| 相当于“或”,显示的结果为包含关键词其中之一的文章中的句子。

·$ 表示按照所写关键词从左到右的顺序出现在同一句中,关键词之间相隔的字符数小于等于数字,如:我$10你,搜索出的句子中我、你间隔小于等于10。

·# 表示关键词同时出现在同一句的句子,不考虑前后次序,关键词之间的间隔小于等于数字。

·+ 表示按照关键词从左到右的顺序出现在同一句中,关键词之间的间隔正等于数字。

·- 表示按照关键词从左到右的顺序出现,且查询的关键词之间距离大于数字,如我-10你,搜索出的句子中,你出现在我的右侧,且距离大于10。

·~ 表示按照关键词从右到左的顺序出现,且查询的关键词之间距离大于数字,如我~10你,搜索出的句子中,你出现在我的左侧,且距离大于10。

·! 表示它后面的关键词是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。

·: 使用方法author:作者名、name:篇名、type:类型、ch:中文句子、pattern:特殊模式(如叠词AABB等)、translator:译者、enname:英文篇名等关键字后面,用于分隔关键字和它们的取值。如:name:诗经

(注意:上述符号均要使用英语格式)

2、批量查询

可以上传要查询的文件,最多字数30字,要求文件里是全部符合普通查询表达式(但是在使用时没有出结果,暂没有找到原因)。

3、模式查询

如果我们想要查询“越…越…”,查询表达式为“越(A)越(B)”,如果前后想要查询一致的词语可以写为“越(A)越(A)”,A、B可用任何字母代替,大小写不限。

所查询的A和B都可以约束长度,表达方式为“(A,=3)”,表示要求A的长度为3;“(A,<5)”,表示要求A的长度不超过5;“(A,3-9)”,表示要求A的长度介于3-9之间。

例如:“越(A,<5)越(B,3-9)”,表示要求A的长度小于等于5,B的长度在3-9之间。

三、使用教程B

1.打开页面进入北京大学中国语言文学研究中心选择古汉、现汉,可根据需要选择进入普通、批量、模式查询检索。
2.CCL语料库语料分类分布情况、语料库文件详细目录、语料库字符统计详细信息、汉英句对齐语料库规模及语料类型详见http://ccl.pku.edu.cn:8080/ccl_corpus/corpus_statistics.html 
3.首先CCL可进行简单查询,查询表达式可以是以下形式的序列:(1)子句,(2)子句1 子句2  ...(子句和子句之间需要以空格隔开,表示逻辑“AND”关系),使用$+操作符的查询表达式, $ 符号表示间隔小于等于,如“把$10给”表示返回“把”与“给”之间少于10个字符的句子。查询表达式支持多个“$”连用,如查询“被$10把$3给$2了”,表示 “被、把、给、了”四个关键字在一个句子中共现,并且相互之间有间隔字符的要求,“被”在“把”前出现,二者之间间隔小于10个字符。+ 符号表示间隔等于,如“把+10给”表示返回“把”与“给”之间等于10个字符的结果。查询表达式支持多个“$”或“+”连用,如支持查询“我$10你$3他$2 了” “你+3他+2了”。此外系统也支持“$”与“+”的组合搜索,如“我$10你+3他$2了”, 该查询表示返回“我” 和“你”间隔小于等于10,“你”和“他”间隔等于3,“他”和“了”间隔小于等于2。
4.其次批量查询,用户可以上传查询文件,文件中可以包含多个普通查询可接受的表达式,默认允 许的最大查询数为30。文件格式为:每一行是个合法的查询表达式。返回的查询结果是一个网页(html文件),其中列出每一个查询表达式命中 的结果的个数,每一个查询表达式后的结果个数上有一个超链接,点击后可进入该 查询表达式对应的具体查询结果。
5.模式查询,在模式查询页面,用户可以检索特定的模式,比如“爱V 不 V” “有 X V X”;其中,模式“爱V 不 V”表示查询“爱”跟“不”之间间隔一个字(或词),用户可以指定V的字符个数(长度),两个V是相同的字符串。模式“有X V X”表示查询字符串中包括“有”,“有”后面紧跟的字符串“X”间隔字符串“V”后又重复出现一次,字符串“V”跟字符串“X”不相同。
6.在普通查询、批量查询、模式查询页面,系统都提供了“选择范围”按钮,点击 该按钮,系统弹出语料库目录结构的树状显示,用户可以通过鼠标点击选取框checkbox来指定查询范围。语料库文件目录的树状结构可以在网页上“展开-收缩”显示,每个节点前有一 个选取框(checkbox),如果选中一个节点,则默认情况下,该节点的所有子孙节点都被选中,反之。如果清除一个子节点,默认情况下,该节点的所有子 孙节点都被清除。对于复杂的查询要求,可以尝试通过多次查询完成,即利用“在结果中查找”功 能,逐次逼近检索目标。 “在结果中检索”的功能是指在上一次检索基础上,用户输入新的查找条件,然后点击“在结果中检 索”按钮,系统会将此次用户输入的查找条件跟上一次的查找条件(LastQuery)合并(AND运算),执行一次查询。查询结果是上一次查询结果的一个 子集。比如:您想查找“宁可……也”的例句,同时不希望“也”后面出现“不”这样 的否定词。可以先输入查询表达式“宁可$10也”,返回的结果是包含“宁可”和 “也”,且二者相隔10字以内的句子,然后再输入查询表达式“也-4不”,这样就可以把“也”后面4字范围内有“不”的句子剔除掉了。 

四、使用教程C

CCL语料库有三种查询模式,可以依据不用的表达式查找相应的内容,也可以在结果中继续查询,还可以上传本地文件进行查询,以下是普通查询、批量查询和模式查询的使用介绍:
一 普通查询
1.1 查询表达式简介
查询表达式由操作符、基本项、简单项、复杂项、过滤项、子句等构成。下面依 次介绍这些单元。
1.1.1 操作符
查询表达式中可以使用的特殊符号包括9个:SPACE | $ # + - ~ ! :
这些符号分为四组:
Operator1: SPACE |
Operator2: $ # + - ~

Operaotr3: !
Operator4: :
符号的含义如下:
(一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”
(1) SPACE(空格)相当于逻辑中的“并”关系。
(2) | 相当于逻辑中的“或” 关系。
(二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”
(3) $ 表示它两边的“简单项”按照左边 在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小 于或等于Number

(4) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number

(5) + 表示它两边的“简单项”按 照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚 好等于Number
(6) - 表示它左边的“简单项”出现于句子中,并且,在右边 相隔Number个字的范围内,-号右边的“简单项”不出现。
(7) ~ 表示它左边的“简单项”出现于句子中,并且,在左边 相隔Number个字的范围内,~号右边的“简单项”不出现。
除 $ 和 + 操作符外,Operator2不能连续多次使用,即只能用Operator2连接两项:A Operator2 B,形成查询表达式。
Operator2中的 $ 和 + 可以连续多次使用,且可以混合使用。见1.2小节的说明。
(三)Operator3:Operator3是一元操作符。
(8) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来 进行定位。
(四)Operator4:西文冒号 : 是分隔符(delimiter)
(9) : 跟在 author,name,type,pattern 等关键字后面,用于分隔关键字和它们的取值。这样形成的查询式称之为“过滤项”(见下面 1.1.5)
1.1.2 基本项
指不包含特殊符号和空格的连续字符串
1.1.3 简单项
简单项可以由以下三种形式的序列组成
(1) 基本项
(2) 基本项1 Operator1 基本项2 Operator1 …
(3) (基本项1 Operator1 基本项2 Operator1 …)
1.1.4 复杂项
复杂项可以由以下三种形式的序列组成
(1) 简单项
(2) 简单项1 Operator2 Number 简单项2
(3) 简单项1 Operator2 Number Operator3 简单项2
其中第二种形式,等价于 Operator3 简单项1 Operator2 Number 简单项2,换句话说,如果以第一个简单项作为查询结果的显示中心,!可以省略。
1.1.5 过滤项
过滤项可以包含以下表达式:
(1)author:简单项
(2)name:简单项
(3)type:简单项
(4)pattern:简单项
(5)ch:简单项
(6)en:简单项
(7)translator:简单项
(8)enname:简单项
说明:
– “author:简单项”的含义是指“author”关键字后面跟的表达式是上面1.1.3“简单项”所定义的字符串,其余类推 。
– 通过指定过滤项中author(作者),name(篇名),type(文章类型),ch(中文句子),en(英文句子),用户可以缩小查询语料的范围。
– 过滤项pattern专门用于查询汉语中的各种模式,比如“AABB”这样的重叠形式,“AB不AB”这样的反复问形式,等等。
– 过滤项关键字(5)-(8),即ch,en,translator(译者) enname(英文篇名)等是汉英双语语料库检索系统专用的,其余关键字既可用于现代汉语、古代汉语语料库检索系统,也可以用于汉英双语语料库检索系统。
举例:
例1: 想查询“老舍”的语料,在查询表达式中输入“author:老舍”即可;

例2: 想查询“老舍”先生的文章中“A来A去”的用法,在查询表达式中输入“author:老舍 pattern:A来A去”即可。

例3: 查询 ch:以太网 en:Ethernet

意思是:查出汉语句子中包含“以太网”,英语句子中包含“Ethernet”的汉英对照句对 儿。
(ch表示其后字符串查询范围为汉语句子;en表示其后字符串查询范围为英 语句子。)

1.1.6 子句
子句可以是以下两类表达式:
(1) 复杂项
(2) 过滤项

1.1.7 查询表达式
查询表达式可以是以下形式的序列:
(1) 子句
(2) 子句1 子句2 …

(子句和子句之间需要以空格隔开,表示逻辑“AND”关系)
1.2  使用 $ + 操作符的查询表达式
$ 符号表示间隔小于等于,如“把$10给”表示返回“把”与“给”之间少于10个字符的句子。

查询表达式支持多个“$”连用,如查询“被$10把$3给$2了”,表示 “被、把、给、了”四个关键字在一个句子中共现,并且相互之间有间隔字符的要求,“被”在“把”前出现,二者之间间隔小于10个字符。

  • 符号表示间隔等于,如“把+10给”表示返回“把”与“给”之间等于10个字符的结果。
    查询表达式支持多个“$”或“+”连用,如支持查询“我$10你$3他$2 了” “你+3他+2了”。
    此外系统也支持“$”与“+”的组合搜索,如“我$10你+3他$2了”, 该查询表示返回“我” 和“你”间隔小于等于10,“你”和“他”间隔等于3,“他”和“了”间隔小于等于2。

二 批量查询
用户可以上传查询文件,文件中可以包含多个普通查询可接受的表达式,默认允 许的最大查询数为30。
文件格式为:每一行是个合法的查询表达式。
返回的查询结果是一个网页(html文件),其中列出每一个查询表达式命中 的结果的个数,每一个查询表达式后的结果个数上有一个超链接,点击后可进入该 查询表达式对应的具体查询结果。

三 模式查询
在模式查询页面,用户可以检索特定的模式,比如“爱V 不 V” “有 X V X”;其中,模式“爱V 不 V”表示查询“爱”跟“不”之间间隔一个字(或词),用户可以指定V的字符个数(长度),两个V是相同的字符串。模式“有X V X”表示查询字符串中包括“有”,“有”后面紧跟的字符串“X”间隔字符串“V”后又重复出现一次,字符串“V”跟字符串“X”不相同。

3.1 模式查询表达式
为了与文本中的字母进行区分,要求匹配的变量字符用括号括起来。比如查找模 式“爱V 不 V”,其对应的查询表达式为“爱(V)不(V)”。V的长度也可以指定,比如:
查询表达式为“爱(V,=3)不(V)”,表示要求V的长度为3;
查询表达式为“爱(V,<5)不(V)”,表示要求V的长度 不超过5;
查询表达式为“爱(V,2-5)不(V)”,表示要求V的长度介于2-5之 间。
注意:
(1)模式查询针对的语料并未分词。因此,查询“爱(V)不(V)”,也可 以匹配上“恩爱得不得了”。
(2)模式查询仅是形式意义上的匹配。不见得匹配上的实例在语义上也符合模 式的要求。比如查询“爱(V)不(V)”,也可以匹配上“他的全部的爱是不是在羞辱中消 失了”。这里的“爱是不是”不符合一般的“爱v不v”的语义模式。
(3)上 面举例中,模式查询表达式“爱(V)不(V)”的V并不表示动词(Verb),而是代号,写作X,x等等其他符号也可以,指代任意字符。因此,查询“爱(V) 不(V)”,也可以匹配上“少年,认真的恋个爱 好不好”

3.2 模式查询结果页面的显示
“模式查询”的默认结果页面跟“普通查询”的结果页面相同,参见下面第四节的说明。
在“模式查询”的结果页面上,还增加了一个“统计”按钮。点击“统计”按钮,系统对“模式查询”表达式中的“变项(如x,v等)”进行 计数,并可以按照频次降序或频次升序输出。例如:查询“爱(x)不(x)”模式,返回的默认结果页面为:

共有236条结果

点击“统计”按钮后,返回结果为:
共有43条结果
爱动不动: 3 ; (x,动)
爱去不去: 2 ; (x,去)
爱打不打: 1 ; (x,打)
爱念不念: 1 ; (x,念)
爱怕不怕: 1 ; (x,怕)
爱戒不戒: 1 ; (x,戒)
爱懂不懂: 1 ; (x,懂)
爱用不用: 1 ; (x,用)
……
根据这个统计结果可以知道,在CCL语料库中,“爱V不V”中的V有:

动,去,打,念,怕,戒,懂,用,……

四 选择查询范围
在普通查询、批量查询、模式查询页面,系统都提供了“选择范围”按钮,点击 该按钮,系统弹出语料库目录结构的树状显示,用户可以通过鼠标点击选取框checkbox来指定查询范围。
语料库文件目录的树状结构可以在网页上“展开-收缩”显示,每个节点前有一 个选取框(checkbox),如果选中一个节点,则默认情况下,该节点的所有子孙节点都被选中,反之。如果清除一个子节点,默认情况下,该节点的所有子 孙节点都被清除。

六 在结果中检索
对于复杂的查询要求,可以尝试通过多次查询完成,即利用“在结果中查找”功 能,逐次逼近检索目标。
“在结果中检索”的功能是指在上一次检索基础上,用户输入新的查找条件,然后点击“在结果中检 索”按钮,系统会将此次用户输入的查找条件跟上一次的查找条件(LastQuery)合并(AND运算),执行一次查询。查询结果是上一次查询结果的一个 子集。
比如:您想查找“宁可……也”的例句,同时不希望“也”后面出现“不”这样 的否定词。
您可以先输入查询表达式“宁可$10也”,返回的结果是包含“宁可”和 “也”,且二者相隔10字以内的句子,然后您再输入查询表达式“也-4不”,这样就可以把“也”后面4字范围内有“不”的句子剔除掉了。

五、相关文献

[1]陈博聪. 基于现代汉语语料库的“纠结”义项分析[J]. 现代语文(语言研究版),2017(08)

[2]高文成 张丽芳. 英汉语双名词内向结构认知对比研究——基于BNC和CCL语料库[J]. 西安外国语大学学报,2013(02)

[3]李水. 认识立场标记“我认为”“我觉得”比较研究初探——基于现代汉语语料库的研究[J]. 沈阳工程学院学报(社会科学版),2016(01)

[4]李秀萍. 基于语料库的现代汉语教学方法研究[J]. 现代营销(学苑版),2011(10)

[5]孙东平 郑琳. CCL语料库视野下的“位”字研究[J]. 和田师范专科学校学报,2015(03)

[6]王超. 关于CCL和COCA在线语料库使用方法的研究[J].才智,2014(28)

[7]俞士汶 段慧明 朱学锋 孙斌. 北京大学现代汉语语料库基本加工规范[J]. 中文信息学报,2002(05)

[8]俞士汶 段慧明 朱学锋 孙斌. 北京大学现代汉语语料库基本加工规范(续)[J]. 中文信息学报,2002(06)

[9]朱晓敏. 基于COCA语料库和CCL语料库的翻译教学探索[J]. 外语教学理论与实践,2011(01)

[10]詹卫东、郭锐、谌贻荣,2003,北京大学中国语言学研究中心CCL语料库(规模:7亿字;时间:公元前11世纪-当代),网址: http://ccl.pku.edu.cn:8080/ccl_corpus

EmotionsOnTwitter

发表于 2018-03-07

提供者:尤洁雪

Website:https://github.com/jagnajoz/2017_project

Tools:

  1. Natural Language Toolkit NLTK
  2. matplotlib
  3. word cloud library https://github.com/amueller/word_cloud

    Tutorials:

    NLTK
    “Natural Language Processing with Python”, O’Reilly

    Related papers:

    E. Kouloumpis, Twitter Sentiment Analysis: The Good the Bad and the OMG!, Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media

ConceptNet

发表于 2018-03-07

提供者:姜珊
官网:ConceptNet

简介:

ConceptNet是由MIT构建的语义网络,其中包含了大量计算机应该了解的关于这个世界的信息,这些信息有助于计算机做更好的搜索、回答问题以及理解人类的意图。它由一些代表概念的结点构成,这些概念以自然语言的单词或者短语形式表达,并且其中标示了这些概念的关系。ConceptNet5是一个开源项目,其使用GPLv3协议进行开源。

使用方法:

数据格式:ConceptNet 是Linked Open Data,其数据以JSON-LD格式组织。
WebAPI:发出HTTP请求,获得JSON格式数据。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
>>> import requests
>>> obj = requests.get('http://api.conceptnet.io/c/en/example').json()
>>> obj.keys()
dict_keys(['view', '@context', '@id', 'edges'])

>>> len(obj['edges'])
20

>>> obj['edges'][2]
{'@id': '/a/[/r/IsA/,/c/en/example/n/,/c/en/information/n/]',
'dataset': '/d/wordnet/3.1',
'end': {'@id': '/c/en/information/n',
'label': 'information',
'language': 'en',
'sense_label': 'n',
'term': '/c/en/information'},
'license': 'cc:by/4.0',
'rel': {'@id': '/r/IsA', 'label': 'IsA'},
'sources': [{'@id': '/s/resource/wordnet/rdf/3.1',
'contributor': '/s/resource/wordnet/rdf/3.1'}],
'start': {'@id': '/c/en/example/n',
'label': 'example',
'language': 'en',
'sense_label': 'n',
'term': '/c/en/example'},
'surfaceText': [[example]] is a type of [[information]]',
'weight': 2.0}

Local Python API:

  1. 安装:

    1.Docker打包安装

    1. 自定义安装
  2. 使用:
    如果本地已经成功安装了ConceptNet ,就可以使用Local Python API.
    1
    2
    3
    4
    5
    6
    >>> from conceptnet5.db.query import AssertionFinder
    >>> cnfinder = AssertionFinder()
    >>> cnfinder.lookup('/c/en/example')
    [... lots of edges ...]
    >>> cnfinder.query({'node': '/c/en/example'})
    [... the same edges ...]

相关论文

  1. ConceptNet — a practical commonsense reasoning tool-kit
    H Liu and P Singh
  2. ConceptNet 5.5: An Open Multilingual Graph of General Knowledge
    Robert Speer, Joshua Chin, Catherine Havasi
  3. Representing General Relational Knowledge in ConceptNet 5
    Robert Speer and Catherine Havasi

《京华烟云》英汉平行语料库

发表于 2018-03-07

提供者:吴思远

链接

http://corpus.usx.edu.cn/jinghuayanyun/index.asp

简介

《京华烟云》是林语堂旅居巴黎时,于1938年8月至1939年8月间用英文写就的长篇小说,英文书名为《Moment in Peking》,《京华烟云》是他转译为中文后的书名。

《京华烟云》讲述了北平曾、姚、牛三大家族从1901年义和团运动到抗日战争三十多年间的悲欢离合和恩怨情仇,并在其中安插了袁世凯篡国、张勋复辟、直奉大战、军阀割据、五四运动、三一八惨案、“语丝派”与“现代评论派”笔战、青年“左倾”、二战爆发,全景式展现了现代中国社会风云变幻的历史风貌。

近年来,国内外对《京华烟云》的研究更是如火如荼。尤其在外语教学研究方面,在中华文化特色词语翻译研究方面,在文化传播学方面,在道教哲学思想翻译研究方面,在文学欣赏语与翻译研究方面,发表的著述不可胜数。从语言、文化对比与翻译来说,Moment in Peking因为译本众多,尤其是张振玉、郁飞的译本在译介认可度较高,所以对比研究的价值较大。《京华烟云》英汉平行语料库的建设,也选择这两个译本来对应原文。《京华烟云》英汉平行语料库就是收集了林语堂先生的英语原著Moment in Peking(《京华烟云》)(外研社,2005年)和张振玉的汉语译本《京华烟云》(陕西师大出版社,2005年)以及郁飞的汉语译本《瞬息京华》(湖南文艺出版社,1991年)。总计约140万字。

使用说明

首先打开《京华烟云》英汉平行语料库。
这个语料库的界面左侧是查询栏,查询栏支持三种查询模式

1、精确匹配:对语料结果进行精确匹配,支持中英文查询。

2、模糊匹配:模糊匹配最易查全,多关键词时考虑顺序,支持中英文查询。

3、但不包括以下检索词::使用不包括以下检索词:方式进行查询,在精确匹配或者模糊匹配的基础上,缩小范围。,支持中英文查询。

不支持模式匹配,不支持正则查询。

在进行使用时:
1.确定搜索范围:

● 全部选用:点击“全选”键。

● 个别选用:

单个选用:鼠标点击欲使用的文件名。

多个选用:Ctrl键+鼠标逐个点击欲使用的文件名。

2.输入检索词:

● “检索词”框内输入检索词一个或多个(|隔开),既可中文(简繁皆宜),亦可英文;点击“提交”。

3.提高检索精度

● 在“但不包括以下检索词”框内输入需排除的一个或多个检索词(|隔开)。

4.检索结果使用

● 检索结果可以选中复制。

使用实例

如精确匹配“呵斥”

显示查询结果:2
显示语境,有三本书的对比:

  1. “Your luck!” Mulan heard her shouting. Book103E172

    #1“算你走运!”木兰听到她的呵斥声。 Book103Y172

    #1木兰听见她说:“你好福气!” Book103Z172

  2. §Cassia cried out in reproach. Book107E488

    #1§桂姐呵斥道: Book107Y488

    #1§桂姐大声责备说: Book107Z488

相关文献

[1] 张宏、杨坚定、孙鸿仁、周仕宝、刘世荣 (2011-03-08),《京华烟云》英汉平行语料库

[2] 张宏. 论文化的可译性——以《京华烟云》英汉平行语料库为例[J]. 作家, 2010(24):182-183.

[3] 梁静璧. 从《京华烟云》平行语料库看man翻译的语境维度[J]. 海外英语, 2015(1):152-153.

[4] 赵娜, 吴明海, 刘剑锋. 基于平行语料库的文学作品翻译研究——以《Moment In Peking》女性形象分析为例[J]. 沈阳建筑大学学报(社会科学版), 2017(4):421-426.

[5] 林芳. 基于对外汉语教学的《京华烟云》高频双音节语气副词的汉英对比研究[D]. 山东大学, 2013.

Matplotlib

发表于 2018-03-07

提供者:何晓文

链接:https://matplotlib.org/users/pyplot_tutorial.html

详细介绍
Matplotlib是基于Python语言的开源项目,旨在为Python提供一个数据绘图包。用户在熟悉了核心对象之后,可以轻易地定制图像。Matplotlib能够创建多数类型的图表,如条形图,散点图,条形图,饼图,堆叠图,3D 图和地图图表。

函数式绘图和面向对象式绘图:
 函数式绘图参考了matlab里面的绘图函数语法,简单易上手
 面向对象式绘图更懂matplotlib底层架构,有更多的功能

环境搭建
 Anaconda 清华镜像
 PyCharm 非常好用的Python集成开发环境,并且Commumity版是免费的
使用说明
使用matplotlib库绘图的五个步骤:
 创建一个图纸 (figure)
 在图纸上创建一个或多个绘图(plotting)区域(也叫子图,坐标系/轴,axes)
 在plotting区域上描绘点、线等各种marker
 为plotting添加修饰标签(绘图线上的或坐标轴上的)
 其他各种DIY

例1:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
fig, ax = plt.subplots()
xy1 = np.array([0.2, 0.8])
rect = mpatches.Rectangle(xy1, 0.2, 0.1, color=’r’)
plt.axis(‘equal’)
plt.grid()
plt.show()

例2:
import numpy as np
import matplotlib.pyplot as plt

mu, sigma = 100,15
x = mu+sigma*np.random.randn(10000)

n, bins, patches = plt.hist(x, 50, normed = 1, facecolor=’g’,alpha=0.75)

plt.xlabel(‘Smarts’)
plt.ylabel(‘Probability’)
plt.title(‘Histogram of IQ’)
plt.text(60, 0.025, r’$\mu=100,\ \sigma=15$’)
plt.axis([40, 160, 0, 0.03])
plt.grid(True)
plt.show()

Reference:
https://matplotlib.org/users/license.html#copyright-policy
http://blog.csdn.net/hustqb/article/details/53287374
http://blog.csdn.net/wizardforcel/article/details/54407212

LTP语言云

发表于 2018-03-07

提供者:申资卓、赵美倩

LTP 语言云由哈尔滨工业大学社会计算与信息检索实验室开发,提供分句、分词、词性标注、句法分析、语义角色标注等自动语言分析功能,曾获 CoNLL 2009七国语言句法语义分析评测 总成绩第一名,中文信息学会钱伟长一等奖等重要成绩和荣誉。
平台官网:https://www.ltp-cloud.com/

分句

在中文文章中,语句是以句子为单元组织起来的。所以,要进篇章级别或者段落级别的自然语言处理,首先要进行分句处理。此部分实现比较简单,以句号,感叹号,问号为句子结束标志,完成分句任务。
分句提供对文本的断句功能,一般以中文句号、问号、感叹号等划分句子,实例代码如下:

1
2
3
4
from pyltp import SentenceSplitter
sents = "python。数据!分析?"
sents = SentenceSplitter.split(sents)
print("\n".join(sents))
python。
数据!
分析?

分词

中文分词 (Word Segmentation,) 指的是将汉字序列切分成词序列。 因为在汉语中,词是承载语义的最基本的单元。分词是信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。
切分歧义是分词任务中的主要难题。LTP的分词模块基于机器学习框架,可以很好地解决歧义问题。同时,模型中融入了词典策略,使得LTP的分词模块可以很便捷地加入新词信息。
执行分词功能时,需加载LTP的分词模块cws.model

1
2
3
4
5
6
7
8
model_path = "D:\Tools\LTP\ltp_data\cws.model"
from pyltp import Segmentor
sent = "我爱北京天安门"
segmentor = Segmentor()
segmentor.load(model_path)
words = segmentor.segment(sent)
words_list = list(words)
words_list
['我', '爱', '北京', '天安门']

词性标注

词性标注(Part-of-speech Tagging, POS)是在给定句子分词结果时,给出词语的相应词性。 这里的词性类别可能是名词、动词、形容词或其他。
词性标注也是自然语言处理的一项基础而重要的任务,对于依存句法分析、语义理解等任务有重要意义。
命名实体识别
命名实体识别 (Named Entity Recognition, NER)任务的目的是识别出句子中的人名、地名、机构名,在自动问答,聊天机器人等任务中有非常重要的影响。

1
2
3
4
5
6
7
8
model_path = "D:\Tools\LTP\ltp_data\pos.model"
from pyltp import Postagger
words = ['我', '爱', '北京', '天安门']
postagger = Postagger()
postagger.load(model_path)
postags = postagger.postag(words)
for word,tag in zip(words,postags):
print (word+'/'+tag)
我/r
爱/v
北京/ns
天安门/ns

依存句法分析

依存语法 (Dependency Parsing, DP) 通过分析语言单位内成分之间的依存关系揭示其句法结构。 直观来讲,依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系。
LTP的依存句法分析的标签及对应意义和解释,参考网页https://www.ltp-cloud.com/intro/ 的描述。
LTP句法分析提供依存句法分析功能,分析结果以该词的父节点词语及句法关系的键值对表示

1
2
3
4
5
6
7
model_path = "D:\Tools\LTP\ltp_data\parser.model"
from pyltp import Parser
words = ['我', '爱', '北京', '天安门']
parser = Parser()
parser.load(model_path)
arcs = parser.parse(words, postags)
print ("\t".join("%d:%s" % (arc.head, arc.relation) for arc in arcs))
2:SBV    0:HED    4:ATT    2:VOB

语义角色标注

语义角色标注 (Semantic Role Labeling, SRL) 是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元 (语义角色) ,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。

语义依存分析

语义依存分析 (Semantic Dependency Parsing, SDP),分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。 使用语义依存刻画句子语义,好处在于不需要去抽象词汇本身,而是通过词汇所承受的语义框架来描述该词汇,而论元的数目相对词汇来说数量总是少了很多的。语义依存分析目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息。

使用方法

(1) LTP支持在网页上在线演示其所有功能,通过文本的可视化,以树和有向图等直观的方式,呈现给用户直观的结果表示方式。但只适合了解LTP的功能,不适合批量处理数据。

在线演示的网址为: https://www.ltp-cloud.com/demo/

(2) LTP支持在线调用API,在线上处理数据。这种方式简便快捷,不用下载源代码,但由于LTP平台对使用频率默认限制为每个IP 200次/秒,且对用户处理有流量的限制,这种方法只适合小批量的数据处理。对于建立大规模的语料库和大量的数据分析,是远远不够的。
(3) 下载ltp的源码到在本地,用python直接进行调用。Github上有pyltp工具,下载安装之后就可以处理大批量的语料数据了。项目地址:https://github.com/HIT-SCIR/pyltp,这里有一个安装及使用教程:http://www.jianshu.com/p/867478f0e674
使用本地的ltp,则不受流量和访问频率的限制,可以处理大规模的语料,用以语料库的建设。

Ltp工具是一个较为完备的处理中文语料的工具包,尽管在使用过程中发现部分分词结果和句法分析结果与预期不符,但整体而言准确率是可以接受的。

相关论文

刘挺 车万翔 李正华 语言技术平台[J], 中文信息学报, 2011(6)

1…2122

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4