世界语言资源平台

  • 首页
  • 标签
  • 归档

语义角色标注数据集CoNLL 2005SRL

发表于 2018-05-11

提供者:李华勇

地址:http://www.cs.upc.edu/~srlconll/

背景介绍

自然语言分析技术大致分为三个层面:词法分析、句法分析和语义分析。语义角色标注是实现浅层语义分析的一种方式。在一个句子中,谓词是对主语的陈述或说明,指出“做什么”、“是什么”或“怎么样,代表了一个事件的核心,跟谓词搭配的名词称为论元。语义角色是指论元在动词所指事件中担任的角色。主要有:施事者(Agent)、受事者(Patient)、客体(Theme)、经验者(Experiencer)、受益者(Beneficiary)、工具(Instrument)、处所(Location)、目标(Goal)和来源(Source)等。

请看下面的例子,“遇到” 是谓词(Predicate,通常简写为“Pred”),“小明”是施事者(Agent),“小红”是受事者(Patient),“昨天” 是事件发生的时间(Time),“公园”是事情发生的地点(Location)。

1
[小明]Agent[昨天]Time[晚上]Time在[公园]Location[遇到]Predicate了[小红]Patient。

语义角色标注(Semantic Role Labeling,SRL)以句子的谓词为中心,不对句子所包含的语义信息进行深入分析,只分析句子中各成分与谓词之间的关系,即句子的谓词(Predicate)- 论元(Argument)结构,并用语义角色来描述这些结构关系,是许多自然语言理解任务(如信息抽取,篇章分析,深度问答等)的一个重要中间步骤。在研究中一般都假定谓词是给定的,所要做的就是找出给定谓词的各个论元和它们的语义角色。

数据集介绍

我们选用CoNLL 2005SRL任务开放出的数据集作为示例。需要特别说明的是,CoNLL 2005 SRL任务的训练数集和开发集在比赛之后并非免费进行公开,目前,能够获取到的只有测试集,包括Wall Street Journal的23节和Brown语料集中的3节。

原始数据中同时包括了词性标注、命名实体识别、语法解析树等多种信息。

原始数据需要进行数据预处理才能被使用,预处理包括下面几个步骤:

  1. 将文本序列和标记序列其合并到一条记录中;
  2. 一个句子如果含有n个谓词,这个句子会被处理n次,变成n条独立的训练样本,每个样本一个不同的谓词;
  3. 抽取谓词上下文和构造谓词上下文区域标记;
  4. 构造以BIO法表示的标记;
  5. 依据词典获取词对应的整数索引。

预处理完成之后一条训练样本包含9个特征,分别是:句子序列、谓词、谓词上下文(占 5 列)、谓词上下区域标志、标注序列。下表是一条训练样本的示例。

下载地址

http://www.cs.upc.edu/~srlconll/soft.html

相关论文

  1. Carreras X, Màrquez L. Introduction to the CoNLL-2005 shared task: Semantic role labeling[C]//Proceedings of the ninth conference on computational natural language learning. Association for Computational Linguistics, 2005: 152-164.
  2. Palmer M, Gildea D, Xue N. Semantic role labeling[J]. Synthesis Lectures on Human Language Technologies, 2010, 3(1): 1-103.

COIL-20 数据集

发表于 2018-05-11

提供者:刘晓
下载地址:http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php

简介

COIL-20 数据集是彩色图片集合,包含对 20 个物体从不同角度的拍摄,每隔 5 度拍摄一副图像,每个物体 72 张图像。每张图像大小进行了统一处理为 128x128。数据集包含两个子集。第一组 包含 10 个对象的总共 720 张未处理图像。第二组包含 20 个对象处理后的总共 1440 张图像。

数据集大小

12.40 Mb

相关论文

[1] C Rate , C Retrieval, Columbia Object Image Library (COIL-20) ,《Computer》 , 2011
[2]TV Hoang , S Tabbone, Generic R-transform for invariant pattern representation, International Workshop on Content-based Multime… , 2011 :157-162

KITTI数据集及简介

发表于 2018-05-11

提供者:杜成玉
下载地址:http://www.cvlibs.net/datasets/kitti/

概述

数据来源:https://blog.csdn.net/solomon1558/article/details/70173223
KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。整个数据集由389对立体图像和光流图,39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成[1] ,以10Hz的频率采样及同步。总体上看,原始数据集被分类为’Road’, ’City’, ’Residential’, ’Campus’ 和 ’Person’。对于3D物体检测,label细分为car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc组成。

数据采集平台

如图-1所示,KITTI数据集的数据采集平台装配有2个灰度摄像机,2个彩色摄像机,一个Velodyne 64线3D激光雷达,4个光学镜头,以及1个GPS导航系统。具体的传感器参数如下[2] :
·2 × PointGray Flea2 grayscale cameras (FL2-14S3M-C), 1.4 Megapixels, 1/2” Sony ICX267 CCD, global shutter
·2 × PointGray Flea2 color cameras (FL2-14S3C-C), 1.4 Megapixels, 1/2” Sony ICX267 CCD, global shutter
·4 × Edmund Optics lenses, 4mm, opening angle ∼ 90◦, vertical opening angle of region of interest (ROI) ∼ 35◦
·1 × Velodyne HDL-64E rotating 3D laser scanner, 10 Hz, 64 beams, 0.09 degree angular resolution, 2 cm distance accuracy, collecting ∼ 1.3 million points/second, field of view: 360◦ horizontal, 26.8◦ vertical, range: 120 m
·1 × OXTS RT3003 inertial and GPS navigation system, 6 axis, 100 Hz, L1/L2 RTK, resolution: 0.02m / 0.1◦

如图-2所示为传感器的配置平面图。为了生成双目立体图像,相同类型的摄像头相距54cm安装。由于彩色摄像机的分辨率和对比度不够好,所以还使用了两个立体灰度摄像机,它和彩色摄像机相距6cm安装。为了方便传感器数据标定,规定坐标系方向如下[2] :
• Camera: x = right, y = down, z = forward
• Velodyne: x = forward, y = left, z = up
• GPS/IMU: x = forward, y = left, z = up

Dataset详述

图-3展示了KITTI数据集的典型样本,分为 ’Road’, ’City’, ’Residential’, ’Campus’ 和’Person’五类。原始数据采集于2011年的5天,共有180GB数据。

数据组织形式

论文[2] 中提及的数据组织形式,可能是早期的版本,与目前KITTI数据集官网公布的形式不同,本文稍作介绍。 如图-4所示,一个视频序列的所有传感器数据都存储于data_drive文件夹下,其中date和drive是占位符,表示采集数据的日期和视频编号。时间戳记录在Timestamps.txt文件。

Annotations

KITTI数据集为摄像机视野内的运动物体提供一个3D边框标注(使用激光雷达的坐标系)。该数据集的标注一共分为8个类别:’Car’, ’Van’, ’Truck’, ’Pedestrian’, ’Person (sit- ting)’, ’Cyclist’, ’Tram’ 和’Misc’ (e.g., Trailers, Segways)。论文[2] 中说明了3D标注信息存储于date_drive_tracklets.xml,每一个物体的标注都由所属类别和3D尺寸(height,weight和length)组成。当前数据集的标注存于每种任务子数据集的label文件夹中,稍有不同。
为了说明KITTI数据集的标注格式,本文以Object detection任务的数据集为例。数据说明在Object development kit的readme.txt文档中。从标注数据的链接 training labels of object data set (5 MB)下载数据,解压文件后进入目录,每张图像对应一个.txt文件。一帧图像与其对应的.txt标注文件如图-5所示。

Development Kit

KITTI各个子数据集都提供开发工具 development kit,主要由cpp文件夹,matlab文件夹,mapping文件夹和readme.txt组成。下图以object detection任务的文件夹devkit_object为例,可以看到cpp文件夹主要包含评估模型的源代码evaluate_object.cpp。Mapping文件夹中的文件记录训练集到原始数据集的映射,从而开发者能够同时使用激光雷达点云,gps数据,右边彩色摄像机数据以及灰度摄像机图像等多模态数据。Matlab文件夹中的工具包含读写标签,绘制2D/3D标注框,运行demo等工具。Readme.txt文件非常重要,详述介绍了某个子数据集的数据格式,benchmark介绍,结果评估方法等详细内容。

评价准则Evaluation Metrics




数据使用实践

KITTI数据集的标注信息更加丰富,在实际使用中可能只需要一部分字段,或者需要转换成其他数据集的格式。例如可以将KITTI数据集转换成PASCAL VOC格式,从而更方便地使用Faster RCNN或者SSD等先进的检测算法进行训练。转换KITTI数据集需要注意源数据集和目标数据集的格式,类别标签的重新处理等问题,实现细节建议参考Jesse_Mx[4] 和github上manutdzou的开源项目[5] ,这些资料介绍了转换KITTI数据集为PASCAL VOC格式,从而方便训练Faster RCNN或者SSD等模型。

相关论文

[1] Andreas Geiger and Philip Lenz and Raquel Urtasun. Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite. CVPR, 2012
[2] Andreas Geiger and Philip Lenz and Christoph Stiller and Raquel Urtasun. Vision meets Robotics: The KITTI Dataset. IJRR, 2013
[3] M. Everingham, L.Van Gool, C. K. I.Williams, J.Winn, and A. Zisserman. The PASCAL Visual Object Classes Challenge 2011 (VOC2011) Results.
[4] Jesse_Mx.SD: Single Shot MultiBox Detector 训练KITTI数据集(1).
http://blog.csdn.net/jesse_mx/article/details/65634482
[5]manutdzou.manutdzou/KITTI_SSD.https://github.com/manutdzou/KITTI_SSD

Korean National Corpus

发表于 2018-05-10

提供者:朱述承

简介

Korean National Corpus是在21st Century Sejong项目支持下建立的,目前的规模是5亿eojuls,收集了现代朝鲜语、国际语料库中的朝鲜语、古朝鲜语和口头民俗文学中的朝鲜语并加以整理。

访问地址

https://ithub.korean.go.kr/user/main.do

创立

1、主语料库建设:用现代语言处理技术处理的现代韩国语语料并进行注释,标记生语料的语义。
2、特殊语料库建设:包括根据时间,地区分类的各类语料库,转录口语表达,平行语料库,国际朝鲜语及历史资料。

标注

1、1998年应用 TEI P3
2、所有语料库文件均包含TEI header和主文档
3、使用SGML进行编码
4、计划将现在的TEI P3转化为TEI P5

应用

1、Sejong Treebank
2、Sejong Morph Tagged Corpus

相关论文

1、Junho, J.P., Jo, Y. and Shin, H. (2010). The KOLON System: Tools for Ontological Natural Language Processing in Korean. Paper presented at the Pacific Asia Conference on Language, Information and Computation. Retrieved February 2, 2015.
2、Kang, B. and Kim H. (2004). Sejong Korean Corpora in the Making. Paper presented at the International Conference on Language Resources and Evaluation. Retrieved February 2, 2015.
3、Kim, H. (n.d.). Korean National Corpus in the 21st Century Sejong Project.

LIVAC

发表于 2018-05-10

提供者:朱述承

简介

LIVAC汉语共时语料库(Linguistic Variation in Chinese Speech Communities)与众不同,因为它以严紧、恒常与“共时”方式,搜索和处理了超常的大量汉语具代表性报章语料,并通过精密的技术,累积了泛华语地区众多精确的统计数据。本语料库最大特点是采用“共时性”视窗模式,剖析来自香港,北京,上海,台湾,澳门,新加坡等多地的定量华语媒体语料。直至2016年,LIVAC已处理逾6.0亿字,累积并持续提炼出约两百万词条。LIVAC所收集各地语用数据,可供各种比较研究,并方便有关的信息科技发展与应用。此外,语料库又兼顾了“历时性”,方便各界以专词配合语用范围搜索(KWIC),以便客观地观察与研究20年视窗内有代表性的语用发展全面动态。经过协调与配合个别需求,例如针对性以地区、时段或范畴,LIVAC曾为多个公、私营机构提供服务,包括语言工程,资讯服务,词典编著,媒体分析与教育各方面机构等。LIVAC由香港城市大学语言资讯科学研究中心开发和推展,由城大企业有限公司旗下麒麟(香港)有限公司提供技术支援。2010年至2013年期间,LIVAC曾挂靠于香港教育学院语言资讯科学研究中心。自2013年7月起,LIVAC由麒麟(香港)有限公司独家维护和开发。

访问地址

http://www.livac.org/

语料处理

1.来自媒体、自行输入、登录
2.统一为文字版,简转繁,储存Big5及Unicode两版本
3.电脑自动切词,电脑自动校对
4.人工校对、复校,词类标注
5.提取词语,加入各地词库
6.各地词库组合为LIVAC大语库

标注及应用

a. 多种分类,如一般名词与专用名词,例如人名;地名;专名(人名、姓氏、半称谓、地名、机构专名、商用专名、其他专名、时间词、方位词、处所词等);叠词;外文词;套装词;数词等。
b. 设人名库、地名库、专名库
c. 提供“专名榜”、“新词榜”、“名人榜”、“地名榜”,覆合词及匹配词
d. 其他标注,如一般名词;数词;量词;多类动词;多类形容词;代词;副词;介词;连词;多类助词;语气词;拟声词;叹词;不完整词等。

特点

由于LIVAC语料是多方面平行“共时”、“同步”方式搜集语料,语料来源涵盖整个泛华语地区,故可协助搜索资料及作分析,是目前有别于其他任何汉语语料库或同类型研究。这点,特别得到语文界及其他方面专家、学者的认同和重视。同时,由于语料库历时十九年,因此“共时性”以外又兼顾了“历时性”,方便研究人员客观地探究到视窗内的有代表性的语言发展全面动态。LIVAC所提供的不仅是语言资料,还同时提供共时的社会、文化档案资料,犹如一个系列性的时间锦囊。

应用

1、LIVAC提供于编纂多本泛华语词典的依据,如近年推出的《新华新词语词典》 (提供词条,北京商务印书馆2003年出版);《21世纪华语新词语词典》(上海复旦大学出版社2007年出版简体字本,台湾丽文文化事业股份有限公司2008年出版繁体字本);《全球华语新词语典》(北京商务印书馆,2010年出版);《汉英大词典》(提供新词词条,牛津大学出版社,2010年出版);及正在编纂中的逆序词典、法律词典、专利词典等。
2、LIVAC可为研究各地华语语言与文化比较,例如词语在各地的使用及演变。
3、LIVAC还可为语言教学研究和开展,例如对各华语地区学生中文程度的测试、与香港卫生署合作制定香港(粤语)口语能力量表(COLAS)、汉语拼音教学网页的建立等等。
4、LIVAC目前最大的一个用途就是应用于资讯科技发展研究,例如用于互联网上的专名检索、手提电话中文字频词频的排列和输入、语音文字的自动转换等。
5、多年来为多家国际企业和政府机构合作,提供语料库研究后勤及开发服务,如中国教育部、香港特区政府卫生署、香港特区政府司法机构、NOKIA(北京)、Tegic(ERICSSON,美国)、YAHOO(香港)、Microsoft(台湾)、NTT Docomo (日本)、BASIS(美国)、无敌科技(台湾、中国大陆)、欧洲Matrixware公司、北京商务印书馆、上海复旦大学出版社、牛津大学出版社等。
6、其他: 年度新闻风云人物榜(www.livac.org/celebrity)、年度新词榜(www.livac.org/newword.php?lang=tc)、中外人名对照表、雅歌汇- 汉语文白对照的机器辅助处理及检索平台、成语填字坊网上游戏 (http://qie.livac.org/xwordlite)。

相关论文

1、邹嘉彦、黎邦洋、陈伟光、王士元(编)(1998),《汉语计量与计算研究》,香港,香港城市大学语言资讯科学研究中心。
2、邹嘉彦、游汝杰(编)(2007),《21世纪华语新词语词典》(简体字版),上海,复旦大学出版社。
3、邹嘉彦、游汝杰(编)(2008),《21世纪华语新词语词典》(繁体字版),台湾,丽文出版社。
4、邹嘉彦、游汝杰(编)(2010),《全球华语新词语词典》,北京,商务印书馆。
5、Tsou, B. K., Kwong, O.Y. (Eds). (2015). (Linguistic Corpus and Corpus Linguistics in the Chinese Context ) Journal of Chinese Linguistics Monograph Series Number 25, 2015邹嘉彦、邝蔼儿(编)《汉语语料库及语料库语言学》《中国语言学报》专刊第25期, Hong Kong: The Chinese University Press
6、Chin, Chi-on Andy and Kwok, Bit-chee and Tsou, Benjamin K., (Eds). (2016). Commemorative Essays for Professor Yuen-Ren Chao: Father of Modern Chinese Linguistics. Taiwan: Crane Publishing.
7、邹嘉彦、黎邦洋(2003),〈汉语共时语料库与资讯开发〉,徐波、孙茂松、靳光瑾编《中文资讯处理若干重要问题》〔《973计划国家语言自然语言理解与知识扢掘》总体刊物〕(页147-165),北京,科学出版社。
8、Tsou, Benjamin. (2004). “Chinese Language Processing at the Dawn of the 21st Century” in C R Huang and W Lenders (eds) Language and Linguistics Monograph Series B: Frontiers in Linguistics I, pp189-207. Institute of Linguistics, Academia Sinica.
9、邹嘉彦(2005),〈21世纪初的中文处理〉(吕学强翻译),俞士汶、黄居仁编《计算语言学前瞻》(页209-258),北京,商务印书馆。
10、邹嘉彦、莫宇航(2013),〈汉语书面语的历史与现状:海峡两岸汉语书面语近年演变:以语料库为出发点〉,冯胜利编《汉语书面语的历史与现状》(页58-75),北京,北京大学出版社。
11、Tsou, Benjamin, and Kwong, Olivia. (2015). LIVAC as a Monitoring Corpus for Tracking Trends beyond Linguistics. In Tsou, Benjamin, and Kwong, Olivia., (eds.), Linguistic Corpus and Corpus Linguistics in the Chinese Context (Journal of Chinese Linguistics Monograph Series No.25). Hong Kong: The Chinese University Press, pp. 447-471.
12、Tsou, Benjamin. (2016). Skipantism Revisited: Along with Neologisms and Terminological Truncation. In Chin, Chi-on Andy and Kwok, Bit-chee and Tsou, Benjamin K., (eds.), Commemorative Essays for Professor Yuen-Ren Chao: Father of Modern Chinese Linguistics. Taiwan: Crane Publishing. pp. 343-357.
13、Tsou, B. K. (2017). Loanwords in Mandarin Through Other Chinese Dialects. In R. Sybesma, W. Behr, Y. Gu, Z. Handel, C.-T. Huang & J. Myers (Eds.), The Encyclopaedia of Chinese Language and Linguistics(Vol. 2, pp. 641-647). Leiden; Boston: BRILL.
14、Tsou, Benjamin, Lin, H.-L., Chan, T., Hu, J.-P., Chew, C.-H. and Tse, J. (1997). “A Synchronous Chinese Language Corpus from Different Speech Communities: Construction and Application” International Journal of Computational Linguistics and Chinese Language Processing, 2(1), pp.91-104.
15、Kwong, Olivia. Tsou, Benjamin, and Lai, Tom. (2004). “Alignment and Extraction of Bilingual Legal Terminology from Context Profiles.” Terminology, 10(1), pp.81-99.
16、Kwong, Olivia, and Tsou, Benjamin. (2004). “A Synchronous Corpus-Based Study of Verb-Noun Fluidity in Chinese.” Journal of Chinese Language and Computing, 13(3), pp.227-278.
17、Kwong, Olivia, and Tsou, Benjamin. (2005). “A Synchronous Corpus-Based Study on the Usage and Perception of Judgement Terms in the Pan-Chinese Context.” International Journal of Computational Linguistics and Chinese Language Processing, 10(4), pp.519-532.
18、Kwong, Olivia, and Tsou, Benjamin. (2006). “Feasibility of Enriching a Chinese Synonym Dictionary with a Synchronous Chinese Corpus”. Lecture Notes in Computer Science, 4139, pp.322-332.
19、邹嘉彦、邝蔼儿、路斌、蔡永富(2011),〈汉语共时语料库与追踪语料库: 语料库语言学的新方向〉,《中文信息学报: 庆祝中国中文信息学会成立三十周年纪念论文集》,25(6),38-45。

The Quranic Arabic Corpus

发表于 2018-05-10

提供者:朱述承

简介

古兰经阿拉伯语语料库涵盖了带注释的语料资源,它显示了古兰经中每个词的阿拉伯语语法,句法和形态。语料库提供了三个层次的分析:词法注释,句法树库和语义本体。树库是汇集句法树的语言资源。这些是人工和计算机可以读取的句子的人工注释分析,不同的树库采用不同的语法理论。最近的阿拉伯语计算研究侧重于现代标准阿拉伯语,而古兰经的古典阿拉伯语则相对尚未探索。尽管数个世纪以来有关于这个主题的许多着作,但几乎没有人注意到传统的阿拉伯语语法特征。该网站的语法部分为希望贡献力量的注释者提供了一套指导方针。所使用的语法方法是传统的阿拉伯语语法,称为i’rāb(إعراب)。这是研究阿拉伯文句法的自然方法,并且在阿拉伯语言学方面已有1000多年的历史。

访问地址

http://corpus.quran.com

独特性

古兰经阿拉伯语语料库在三个重要方面与其他阿拉伯语树库不同:

源文本是阿拉伯语的一种不同形式。古兰经的语言被认为是古典阿拉伯语,不同于今天使用的现代标准阿拉伯语。作为一个中央宗教文本,古兰经也与其他阿拉伯树库中注释的报纸文章类型不同。鉴于古兰经对全世界伊斯兰教的重要性,在注释文本以确保公认的历史准确性时需要特别注意,因为语法分析可能意味着有其他的意义。幸运的是,有许多书籍使用传统的语法提供阿拉伯语古兰经的完整语法分析,鼓励注释者使用它来验证他们的注释。

该文本包含变音符号并被元音化。 “古兰经”的阿拉伯文本包含明确的变音符号,因此完全属于音位。现代标准的阿拉伯语是不带变音符号的,所以读者推断变位,而不是作为正字法的一部分。变音符号首次引入古兰经的阿拉伯语,以减少任何可能的含义模糊,并保持口头传统。这简化了文本的形态和句法分析。

使用i’rāb(إعراب)的传统语法。用于注释古兰经语法的语法框架是传统的阿拉伯语语法,用图形表示使用依赖关系图。所用的注释和术语完全符合古兰经现有的历史语法分析。这与遵循不同语法框架的其他阿拉伯语树库形成鲜明对比。

香港二十世纪中期粤语语料库

发表于 2018-05-10

提供者:朱述承

简介

过去的粤方言历时研究主要参考19世纪至20世纪中期的文字材料。部分出现在早期材料的语言特征,如完成体标记「哓」(Cheung, 1997, 郭必之和片冈新, 2006)、中性问句的VP-Neg句型(Yue, 2004, Cheung, 2001) 和间接宾语标记「过」和工具标记「畀」(Chin, 2009)等,大多在二十世纪二三十年代后逐渐消失或只散见于个别现代粤方言中。换句话说,二十世纪中期很可能是这些新旧语言特徵交替的时期。如果我们能够收集相关时期的语料,就可以增加我们对粤语发展的了解。除了从个别发音人收集方言语料之外,很多学者也使用自然语料,如香港大学语言学系上世纪九十年代构建的香港粤语语料库(The Hong Kong University Cantonese Corpus (Luke, 2011),梁文德和罗心宝构建的The Hong Kong Cantonese Adult Language Corpus (Leung and Law, 2001)。也有学者透过多媒体(如电视剧、电台广播剧和电影)收集语料(如Chan, 1996, 欧阳伟豪, 2006, 梁仲森, 2005等)。 要收集二十世纪中期粤语的语料,我们可以从香港电影出发。香港电影业在五六十年代十分蓬勃,十多年间,生产了一千五百多部电影(锺宝贤, 2007),一般称为「粤语长片」。有学者(如刘镇发和萧佩珊, 2010, 李雄溪和许子滨, 2005)曾经从粤语长片分析早期粤语的面貌。不过这些研究只根据研究者的兴趣而收集和分析个别语言特徵。背后缺乏一个有系统的语料库。 基于以上背景,香港教育学院(现为香港教育大学)语言学及现代语言系过去一年构建了一个以香港五六十年代的粤语长片为基础的语料库。语料库共有二十一套电影(其中十四套可供检索,见下表),每套电影长度约100分钟,电影中的对白用汉字转写,然后进行切词和校对,每个词语配有粤语读音(以香港语言学学会的「粤拼」为基础)。语料库共计约二十万字,并提供不同条件(如词汇、拼音、电影、影星等)的检索。

访问地址

http://corpus.ied.edu.hk/hkcc/

相关论文

1、欧阳伟豪. (2006). 从周星驰对白的旧粤语到动词后置成份的句法构筑. 《香港语言学学会-粤语讨论会(WOC-5):从社会语言学看粤语近代的转变》. 香港中文大学. 2006.4.29.
2、锺宝贤. (2007). 《香港影视业百年》. 香港 : 三联书店.
3、郭必之、片冈新. (2006). 早期广州话完成体标记「哓」的来源和演变。 《中国文化研究所学报》第46期, 91-116页。
4、刘镇发, 萧佩珊. (2010). 香港语言变化的探讨:透过六十年代粤语电影比较今昔粤语语音. 《第十五届国际粤方言研讨会》. 澳门. 2010.12.13-15.
5、李雄溪, 许子滨. (2005). 五、六十年代香港粤语电影语言研究——以语气词「遮」、「啫」为例. 《第十届国际粤方言研讨会》. 香港中文大学. 2005.12.12-14.
6、梁仲森. (2005). 《当代香港粤语语助词的研究》. 香港:香港城市大学语言资讯科学研究中心.
7、Chan, Marjorie. (2006). “Gender-marked speech in Cantonese: the case of sentence-final particles je and jek.” Studies in the Linguistic Sciences, 26.1/2: 1-38.
8、Cheung, Hung-nin Samuel. (1997). “Completing the completive: (Re)constructing early Cantonese grammar”. In Chaofen Sun ed., Studies on the History of Chinese Syntax, Journal of Chinese Linguistics Monograph, Series No.10, pp. 133-165.
9、Cheung, Hung-nin Samuel. (2001). “The interrogative construction: (Re)constructing early Cantonese grammar”. In H. Chappell, ed., Sinitic Grammar: Synchronic and Diachronic Perspectives. Oxford: Oxford University Press, pp. 191-231.
10、Chin, Andy Chi-on (钱志安). (2009). The Verb GIVE and the Double-object Construction in Cantonese in Synchronic, Diachronic and Typological Perspectives. PhD dissertation, University of Washington.
11、Luke, Kang Kwong. (2011). “The Hong Kong Cantonese corpus: Design and uses (香港粤语语料库的设计和用途)”. Paper presented at the Roundtable Conference on Linguistic Corpus and Corpus Linguistics in the Chinese Context 《汉语语料库及语料库语言学圆桌会议》, The Hong Kong Institute of Education, Hong Kong, May 6 – 8 2011.
12、Yue, Anne. (2004). “Materials for the diachronic study of the Yue dialects”. In Shi Feng and Shen Zhongwei, eds., The Joy of Research: A Festschrift in Honor of Professor William S-Y. Wang on His Seventieth Birthday《乐在其中 - 王士元教授七十华诞庆祝文集》. Nankai: Nankai University, pp. 246-271.

初级文档摘要数据集

发表于 2018-05-05

提供者:卢梦依
下载地址:http://t.cn/RJDVxr4

简介

数据集概述

初级文档摘要数据集。该数据集包含澳大利亚联邦法院(FCA)的澳大利亚法律案件。 这些病例是从AustLII下载的([Web Link])。 我们收录了2006,2007,2008和2009年的所有案例。我们将其构建为实验自动汇总和引文分析。 我们收集每个文件的流行语,引用句子,引文标语和引文类。 在文档中可以找到Catchphrases,我们使用的流行语是我们汇总实验的金标准。 在后面引用本案的案例中可以找到引文句子,我们用引文句子进行汇总。 引用流行语是引用本案的两个后期案件的流行语(如果可用),以及本案引用的较旧案例。 文件中指出了引用类别,并指出了本案例引用的治疗类型。

文件

4000个用于自动汇总和引文分析的法律案例的文本语料库。 对于每个文件,我们收集流行语,引文句子,引文标语和引文类。

相关论文

[1] F. Galgani, P. Compton, and A. Hoffmann. Citation based summarisation of legal texts. In PRICAI 2012, volume LNCS 7458, pages 40-52. Springer, Heidelberg, 2012.
[2] F. Galgani, P. Compton, and A. Hoffmann. Combining different summarization techniques for legal text. In Proceedings of the Workshop on Innovative Hybrid Approaches to the Processing of Textual Data, pages 115-123, Avignon, France, April 2012. Association for Computational Linguistics.
[3] F. Galgani, P. Compton, and A. Hoffmann. Knowledge acquisition for categorization of legal case re- ports. In D. Richards and B. Kang, editors, PKAW 2012, volume LNAI 7457, pages 118-132. Springer, Heidelberg, 2012.
[4] F. Galgani, P. Compton, and A. Hoffmann. Towards automatic generation of catchphrases for legal case reports. In the 13th International Conference on Intelligent Text Processing and Computational Linguistics, volume 7182 of Lecture Notes in Computer Science, pages 415-426, New Delhi, India, 2012. Springer Berlin Heidelberg.
[5] F. Galgani and A. Hoffmann. Lexa: Towards automatic legal citation classification. In J. Li, editor, AI 2010: Advances in Artificial Intelligence, volume 6464 of Lecture Notes in Computer Science, pages 445-454. Springer Berlin Heidelberg, 2010.

Text Classification Datasets:文本分类数据集

发表于 2018-05-05

提供者:卢梦依
下载地址:http://t.cn/RJDVxr4

简介

数据集概述

Text Classification Datasets:一个文本分类数据集,包含8个可用于文本分类的子数据集,样本大小从120K到3.6M,问题范围从2级到14级,数据来源于 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。

文件

包含8个文件,文件名和大小分别如下:
ag_news_csv.tar.gz :11MB
amazon_review_full_csv.tar.gz:614MB
amazon_review_polarity_csv.tar.gz:656MB
DBPedia_csv.tar.gz:65MB
sogou_news_csv.tar.gz:366MB
yahoo_answers_csv.tar.gz:187MB
yelp_review_polarity_csv.tar.gz:159MB

相关论文

1.Joachims T. Transductive Inference for Text Classification using Support Vector Machines[C]// Sixteenth International Conference on Machine Learning. Morgan Kaufmann Publishers Inc. 1999:200-209.
2.Joulin A, Grave E, Bojanowski P, et al. Bag of Tricks for Efficient Text Classification[J]. 2016:427-431.
3.Zhang Y, Wallace B. A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification[J]. Computer Science, 2015.
4.Ji Y L, Dernoncourt F. Sequential Short-Text Classification with Recurrent and Convolutional Neural Networks[J]. 2016:515-520.
5.Chen G, Ye D, Xing Z, et al. Ensemble application of convolutional and recurrent neural networks for multi-label text categorization[C]// International Joint Conference on Neural Networks. IEEE, 2017:2377-2383.

NIPS Papers 数据集

发表于 2018-05-05

提供者:卢梦依
下载地址:https://www.kaggle.com/benhamner/nips-papers

简介

数据集概述

神经信息处理系统(NIPS)是世界上最重要的机器学习会议之一。 它涵盖了从深度学习和计算机视觉到认知科学和强化学习等主题。
该数据集包括迄今为止所有NIPS论文的标题,作者,摘要和摘录文本(从1987年第一次会议到2016年目前的会议)。从原始PDF文件中提取纸质文本,并将其发布为CSV文件和SQLite数据库。 在GitHub上创建这个数据集的代码。

文件

大小:141MB
类型:包含4个文件。
authors.csv 包含论文作者和id 187.97KB
paper_authors.csv 论文链接到相应的作者 309.58 KB
papers.csv 所有NIPS论文的年份,标题,摘要和摘录文本 200.63 MB
database.sqlite 这个SQLite数据库包含与papers.csv,authors.csv和paper_authors.csv文件等效的数据和格式的表 206.71 MB

相关论文

1.He Z, Gao S, Xiao L, et al. Wider and Deeper, Cheaper and Faster: Tensorized LSTMs for Sequence Learning[J]. 2017.
2.Daskalakis C, Dikkala N, Kamath G. Concentration of Multilinear Functions of the Ising Model with Applications to Network Data[J]. 2017.
3.Zhao J, Xiong L, Jayashree K, et al. Dual-Agent GANs for Photorealistic and Identity Preserving Profile Face Synthesis[C]// Conference on Neural Information Processing Systems. 2017.
4.He B, De S C, Mitliagkas I, et al. Scan Order in Gibbs Sampling: Models in Which it Matters and Bounds on How Much[J]. Adv Neural Inf Process Syst, 2016.
5.Chu X, Ouyang W, Li H, et al. CRF-CNN: Modeling Structured Information in Human Pose Estimation[J]. 2016.

1…121314…22

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4