世界语言资源平台

  • 首页
  • 标签
  • 归档

The Multi-Genre NLI Corpus 文本蕴含数据集

发表于 2018-05-17

提供者:卢梦依
下载地址:https://www.nyu.edu/projects/bowman/multinli/

简介

数据集概述

多类自然语言推理文集是一组由433k的句子组成的集合,包含有文本的蕴涵信息。语料库以SNLI语料库为范本,但不同的语料库涵盖了不同类型的口语和书面文本,并支持一种独特的跨类型综合评价。该语料库是在哥本哈根EMNLP举行的“2017年克隆”研讨会的共同任务的基础。

文件

大小:7.2G

相关论文

1.Dagan I, Dolan B, Magnini B, et al. Recognizing textual entailment: Rational, evaluation and approaches – Erratum[J]. Natural Language Engineering, 2009, 15(4):i-xvii.
2.Guo M, Zhang Y, Zhao D, et al. Generating Textual Entailment Using Residual LSTMs[J]. 2017.
3.Maillard J, Clark S, Yogatama D. Jointly Learning Sentence Embeddings and Syntax with Unsupervised Tree-LSTMs[J]. 2017.
4.Sha L, Li S, Chang B, et al. Recognizing Textual Entailment via Multi-task Knowledge Assisted LSTM[J]. 2016.
5.Sekine S, Inui K, Dagan I, et al. Proceedings of the ACL-PASCAL Workshop on Textual Entailment and Paraphrasing[J]. 2007.

ACE05 关系抽取数据集

发表于 2018-05-13

提供者:卢梦依
下载地址:http://curtis.ml.cmu.edu/w/courses/index.php/ACE_2005_Dataset

简介

数据集概述

ACE 2005数据集解决了五个主要任务 - 对实体,价值观,时间表达,关系和事件的识别。
该数据集可在语言数据联合会处获得。 数据来自各种来源,可用于以下语言的任务:阿拉伯文,中文和英文。

文件

提供了每个文档的四个版本:
源文本文件(.sgm):所有源文件(包括中文文件)都以UTF-8编码。
APF文件(.apf.xml):ACE程序格式。
AG文件(.ag.xml):LDC注释图格式。
TABLE文件(.tab):存储每个ag.xml文件中使用的ID与其对应的ID之间映射表的文件
apf.xml文件。
本语料库培训部分的详细统计如下:

相关论文

1.Zeng D, Liu K, Chen Y, et al. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks[C]// Conference on Empirical Methods in Natural Language Processing. 2015:1753-1762.
2.Cai R, Zhang X, Wang H. Bidirectional Recurrent Convolutional Neural Network for Relation Classification[C]// Meeting of the Association for Computational Linguistics. 2016:756-765.
3.Miwa M, Bansal M. End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures[J]. 2016.
4.Zhou P, Shi W, Tian J, et al. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification[C]// Meeting of the Association for Computational Linguistics. 2016:207-212.

亚马逊评论数据集

发表于 2018-05-13

提供者:卢梦依
下载地址:http://curtis.ml.cmu.edu/w/courses/index.php/ACE_2005_Dataset

简介

数据集概述

这些数据是通过抓取亚马逊网站收集的,其中包含有关548,552种不同产品(书籍,音乐CD,DVD和VHS录像带)的产品元数据和评论信息。对于每种产品,都提供以下信息:

  • 标题
  • Salesrank
  • 同类产品列表(与当前产品共同购买)
  • 详细的产品分类
  • 产品评论:时间,顾客,评级,投票数,发现评论有用的人数

文件

相关论文

1.Kim Y. Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.
2.Joulin A, Grave E, Bojanowski P, et al. Bag of Tricks for Efficient Text Classification[J]. 2016:427-431.
3.Zhang Y, Wallace B. A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification[J]. Computer Science, 2015.
4.Ji Y L, Dernoncourt F. Sequential Short-Text Classification with Recurrent and Convolutional Neural Networks[J]. 2016:515-520.
5.Chen G, Ye D, Xing Z, et al. Ensemble application of convolutional and recurrent neural networks for multi-label text categorization[C]// International Joint Conference on Neural Networks. IEEE, 2017:2377-2383.

文本分类语料库(复旦)测试数据集

发表于 2018-05-13

提供者:卢梦依
下载地址:http://www.nlpir.org/download/tc-corpus-answer.rar

简介

数据集概述

由复旦大学李荣陆提供。answer.rar为测试语料,共9833篇文档;train.rar为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。

文件

文件较大(训练测试各50多兆)。

相关论文

1.Joachims T. Transductive Inference for Text Classification using Support Vector Machines[C]// Sixteenth International Conference on Machine Learning. Morgan Kaufmann Publishers Inc. 1999:200-209.
2.Joulin A, Grave E, Bojanowski P, et al. Bag of Tricks for Efficient Text Classification[J]. 2016:427-431.
3.Zhang Y, Wallace B. A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification[J]. Computer Science, 2015.
4.Ji Y L, Dernoncourt F. Sequential Short-Text Classification with Recurrent and Convolutional Neural Networks[J]. 2016:515-520.
5.Chen G, Ye D, Xing Z, et al. Ensemble application of convolutional and recurrent neural networks for multi-label text categorization[C]// International Joint Conference on Neural Networks. IEEE, 2017:2377-2383.

SemEval2010 Task8 关系抽取数据集

发表于 2018-05-13

提供者:卢梦依
下载地址:http://semeval2.fbk.eu/semeval2.php?location=data

简介

数据集概述

SemEval-2010的任务8关注的是两个名词之间的语义关系。例如,茶和人参是在“从德里人参的杯子里”的一种物质来源关系中。语义关系的自动识别有许多应用,如信息提取、文档摘要、机器翻译、词汇和语义网络的构建等。它还可以促进辅助任务,如wordsense消除歧义、语言建模、语法分析和识别文本蕴涵。
有9种关系如下所示:

Cause-Effect (CE).An event or object leads to an effect. Example: those cancers were caused by radiation exposures.因果关系

Instrument-Agency (IA). An agent uses an instrument. Example: phone operator

Product-Producer (PP).A producer causes a product to exist. Example: a factory manufactures suits 生产与被生产的关系

Content-Container (CC).An object is physically stored in a delineated area of space. Example:a bottle full of honey was weighed 容器与内容物的关系

Entity-Origin (EO).An entity is coming or is derived from an origin (e.g., position or mate-rial) Example:letters from foreign countries 实体来自或源自原产地(例如,位置或材料)

Entity-Destination (ED).An entity is moving towards a destination. Example: the boy went to bed 一个实体正在向目的地移动。 例如:男孩去睡觉

Component-Whole (CW).An object is a component of a larger whole. Example: my apartment has a large kitchen 组件到整体

Member-Collection (MC).A member forms anonfunctional part of a collection. Example:there are many trees in the forest 成员集合关系(MC),成员构成集合的非功能部分。 例如:森林里有很多树

Message-Topic (MT).A message, written or spoken, is about a topic. Example: the lecture was about semantics 。信息与主题 例如:讲座是关于语义的。

各占比例如下图:

文件

类型:txt文本
train data: 1370KB
test data: 342KB
文件格式:”The news brought about a commotion in the office.这段话标明两个实体(news,commotion)这两个实体之间的关系是Cause-Effect(e1,e2)。因果果关系。

相关论文

1.Zeng D, Liu K, Chen Y, et al. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks[C]// Conference on Empirical Methods in Natural Language Processing. 2015:1753-1762.
2.Cai R, Zhang X, Wang H. Bidirectional Recurrent Convolutional Neural Network for Relation Classification[C]// Meeting of the Association for Computational Linguistics. 2016:756-765.
3.Miwa M, Bansal M. End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures[J]. 2016.
4.Zhou P, Shi W, Tian J, et al. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification[C]// Meeting of the Association for Computational Linguistics. 2016:207-212.

STL-10

发表于 2018-05-12

提供者:刘唯

简介

STL-10 是一个图像数据集,包含 10 类物体的图片,每类 1300 张图片,500 张训练,800 张测试,每张图片分辨率为 96x96。除了具有类别标签的图片之外,还有 100000 张无类别信息的图片。

数据来源

https://cs.stanford.edu/~acoates/stl10/

文件大小

2.46 Gb

相关论文

[1]Yoshihiro Shima. Image Augmentation for Object Image Classification Based On Combination of Pre-Trained CNN and SVM[J]. Journal of Physics: Conference Series,2018,1004(1).
[2]Yazhou Yao,Jian Zhang,Fumin Shen,Xiansheng Hua,Jingsong Xu,Zhenmin Tang. A new web-supervised method for image dataset constructions[J]. Neurocomputing,2016.
[3]Kristo,Chin Seng Chua. Cost effective window arrangement for spatial pyramid matching[J]. Journal of Visual Communication and Image Representation,2015,29.
[4]Yunong Wang,Nenghai Yu,Taifeng Wang. Ada-Sal Network: emulate the Human Visual System[J]. Signal Processing: Image Communication,2016,47.

Visual7W 图像数据

发表于 2018-05-11

提供者:刘晓
下载地址:http://web.stanford.edu/~yukez/visual7w/

简介

Visual7W 图像数据是一个图像内容理解的数据集,通过对图像区域的文字描述和互相之间的关联,进行视觉问答(Visual Question Answering)任务,数据集中不仅包含图像本身,还包括图像内容的区域内容的问答。Visual7W是Visual Genome的一个子集,包含47,300张图像。Visual7W的问题主要由What, Where, How, When, Who,Why, and Which构成。Visual7W的问题是多选问题,每个问题都有四个候选答案。

文件类型

多文件压缩包

#文件大小
1.77Gb

相关论文

[1] Yuke Zhu, Oliver Groth, Michael Bernstein and Li Fei-Fei, Visual7W: Grounded Question Answering in Images

Large Movie Review Dataset

发表于 2018-05-11

提供者:李华勇

地址:http://ai.stanford.edu/~amaas/data/sentiment/

背景介绍

在自然语言处理中,情感分析一般是指判断一段文本所表达的情绪状态。其中,一段文本可以是一个句子,一个段落或一个文档。情绪状态可以是两类,如(正面,负面),(高兴,悲伤);也可以是三类,如(积极,消极,中性)等等。情感分析的应用场景十分广泛,如把用户在购物网站(亚马逊、天猫、淘宝等)、旅游网站、电影评论网站上发表的评论分成正面评论和负面评论;或为了分析用户对于某一产品的整体使用感受,抓取产品的用户评论并进行情感分析等等。

数据集介绍

这是一个二进制情绪分类数据集,其中包含比以前的基准数据集更多的数据。我们提供了一套25,000个的电影评论进行培训,25,000个进行测试。还有其他未标记的数据也可以使用。提供原始文本和已处理的文字格式包。

IMDB数据集的训练集和测试集分别包含25000个已标注过的电影评论。其中,负面评论的得分小于等于4,正面评论的得分大于等于7,满分10分。

1
2
3
4
5
6
7
aclImdb
|- test
|-- neg
|-- pos
|- train
|-- neg
|-- pos

下载地址

http://ai.stanford.edu/~amaas/data/sentiment/

相关论文

  1. Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. (2011). Learning Word Vectors for Sentiment Analysis. The 49th Annual Meeting of the Association for Computational Linguistics (ACL 2011).

NORB v1.0 图像数据

发表于 2018-05-11

提供者:刘晓
下载地址:http://cs.nyu.edu/~ylclab/data/norb-v1.0/

简介

NORB 是 3D 物体图像识别数据集。从不同的角度对 5 大类别(四条腿的动物、人像、飞机、卡车、小汽车)中的 50 个玩具模型进行图像拍摄。拍摄采用了 2 个照相机,6 种不同的光照条件,9 个特定的拍摄角度, 18 个仰角。 训练集合中包括每个类别的 5 个实例,余下 5 个实例为测试集。该数据库用于研究目的。它不能被出售。

数据集内容

文件便于下载已被处理成压缩。在未压缩之后,它们是一个简单的二进制矩阵格式,带有文件后缀“.mat”。文件格式将在后面的部分中解释。“-dat”文件存储图像序列。“-cat”文件存储图像的相应类别。每个“-dat”文件存储了29,160个图像对(6个类别,5个实例,6个lightings, 9个特定的拍摄角度,18个方位角)。第6类是没有对象的图像,可以用来训练系统拒绝图像,因为这5个对象类别都没有。每个对应的“-cat”文件包含29,160个类别标签(动物为0,人为1,飞机为2,卡车为3,汽车为4,空白为5)。
每个“-info”文件存储了29,160个10维向量,其中包含了关于相应图像的额外信息。向量的前四个元素是:

  • 类别中的实例(0到9)
  • 高程(0到8,意味着摄像机分别为30、35、40、45、50、55、60、65、70度)
  • 3。方位角(0、2、4,……,34,乘以10,得到角度的方位角)
  • 4。照明条件(0至5)

接下来的6个元素描述了在一个杂乱的背景上叠加在物体上的微扰。

文件格式

这些文件存储在所谓的“二进制矩阵”文件格式中,这是一种简单的矢量格式和各种元素类型的多维矩阵。二进制矩阵文件首先是一个文件头,它描述了矩阵的类型和大小,然后是矩阵的二进制图像。
注意,当矩阵小于3维时,比如说,它是一维向量,然后是dim[1]和dim[2]都是1。当矩阵有超过3个维度时,标题将被进一步的尺寸信息。否则,在文件头出现后,将在最后一个维度中以索引存储的矩阵数据变化最快。

这是一张 “norb-5x46789x9x18x6x2x108x108-training-10-dat.mat”文件中前30张图片的截图。,按顺序排列,从左到右(列主要)。下面的标题显示了相应的 “-cat.mat” 和 “-info.mat” 的内容。它们是”category / instance / elevation / azimuth / lighting”。对于背景图像,后面的4个数字都是-1。

相关论文

[1] Y. LeCun, F.J. Huang, L. Bottou, Learning Methods for Generic Object Recognition with Invariance to Pose and Lighting. CVPR 2004

Caltech-UCSD Birds 200 鸟类图像数据

发表于 2018-05-11

提供者:刘晓
下载地址:http://www.vision.caltech.edu/visipedia/CUB-200-2011.html

简介

Caltech-UCSD Birds 200 是一个鸟类图片数据集,包含 200 不同种鸟类,共计 11788 张图片。
Caltech-UCSD Birds-200-2011 (CUB-200-2011)是CUB-200数据集的扩展版本,每个类的图像数量大约是两倍,新的部分位置标注。有关数据集的详细信息,请参见下面链接的技术报告。

  • 种类数量: 200
  • 图像数量:11,788
  • 每个图像的注释:15部分位置,312个二进制属性,1个边界框。

文件类型

多文件压缩包

文件大小

1.12Gb

相关论文

[1] Wah C., Branson S., Welinder P., Perona P., Belongie S. “The Caltech-UCSD Birds-200-2011 Dataset.” Computation & Neural Systems Technical Report, CNS-TR-2011-001. download pdf
[2] Goering, C., Rodner, E., Freytag, A., Denzler, J., “Nonparametric Part Transfer for Fine-grained Recognition”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2014.
[3] Wah, C., Van Horn, G., Branson, S., Maji, S., Perona, P., Belongie, S., “Similarity Comparisons for Interactive Fine-Grained Categorization”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2014.
[4] Berg T., Belhumeur P., “POOF: Part-Based One-vs-One Features for Fine-Grained Categorization, Face Verification, and Attribute Estimation”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2013.
[5] Chai, Y., Lempitsky, V., Zisserman, A., “Symbiotic Segmentation and Part Localization for Fine-Grained Categorization”, IEEE International Conference on Computer Vision (ICCV), Sydney, Australia, 2013.
[6] Gavves E., Fernando B., Snoek C., Smeulders A., Tuytelaars T., “Fine-Grained Categorization by Alignments”, IEEE International Conference on Computer Vision (ICCV), Sydney, Australia, 2013.

1…111213…22

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4