世界语言资源平台

  • 首页
  • 标签
  • 归档

Google Web 5gram 数据集

发表于 2018-05-05

提供者:卢梦依
下载地址:https://catalog.ldc.upenn.edu/LDC2006T13

简介

数据集概述

由Google Inc.提供的Web 1T 5-gram第1版包含英文单词n-gram及其观察到的频率计数。 n-gram的长度范围从unigrams(单个单词)到5-gram。 预计该数据对于统计语言建模是有用的,例如用于机器翻译或语音识别以及用于其他用途。n-gram计数来自可公开访问的网页上大约1万亿字的文本标记。可以自动检测到文档的输入编码,并将所有文本转换为UTF8。

文件

大小:约24 GB压缩(gzip)。文本文件标记数量:1,024,908,267,229,句子数量:95,119,665,584,unigrams数量:13,588,391,bigrams数量:314,843,401, trigrams数量:977,069,902,四 fourgrams数量:1,313,818,354, fivegrams数量:1,176,470,663。
类型:数据以类似Penn Treebank华尔街日报部分的标记化的方式进行标记。 值得注意的例外包括以下内容:
被连字的词通常是分开的,并且连字符的数字通常构成一个记号。用斜线(例如日期)分隔的数字序列形成一个标记。看起来像网址或电子邮件地址的序列形成一个令牌。

相关论文

1.Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model[C]// INTERSPEECH 2010, Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September. DBLP, 2010:1045-1048.
2.Song F, Croft W B. A general language model for information retrieval[C]// Eighth International Conference on Information and Knowledge Management. ACM, 1999:316-321.
3.Ieee L R B M, Brown P F, Souza P V D, et al. A Tree-Based Statistical Language Model for Natural Language Speech Recognition[J]. Readings in Speech Recognition, 1990, 37(7):507-514.

统计机器翻译数据集

发表于 2018-05-05

提供者:卢梦依
下载地址:http://t.cn/RJDVxr4

简介

数据集概述

用于年度机器翻译挑战赛的标准数据集。同时涵盖了统计机器翻译领域所有主题的所有出版物。 截至目前,它包含4298份出版物。 3965被分配给主题,3991链接到pdf文件,1293被讨论在主题描述中。

文件

包含了如下会议的数据集:
ACL 2014 NINTH WORKSHOP ON STATISTICAL MACHINE TRANSLATION、
NAACL 2006 WORKSHOP ON STATISTICAL MACHINE TRANSLATION、
ACL 2007 SECOND WORKSHOP ON STATISTICAL MACHINE TRANSLATION、
ACL 2008 THIRD WORKSHOP ON STATISTICAL MACHINE TRANSLATION、
EACL 2009 FOURTH WORKSHOP ON STATISTICAL MACHINE TRANSLATION、
ACL 2010 JOINT FIFTH WORKSHOP ON STATISTICAL MACHINE TRANSLATION AND METRICS MATR、
EMNLP 2011 SIXTH WORKSHOP ON STATISTICAL MACHINE TRANSLATION、
NAACL 2012 SEVENTH WORKSHOP ON STATISTICAL MACHINE TRANSLATION、
ACL 2013 EIGHTH WORKSHOP ON STATISTICAL MACHINE TRANSLATION

相关论文

1.Kim Y. Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.
2.Joulin A, Grave E, Bojanowski P, et al. Bag of Tricks for Efficient Text Classification[J]. 2016:427-431.
3.Zhang Y, Wallace B. A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification[J]. Computer Science, 2015.
4.Ji Y L, Dernoncourt F. Sequential Short-Text Classification with Recurrent and Convolutional Neural Networks[J]. 2016:515-520.
5.Chen G, Ye D, Xing Z, et al. Ensemble application of convolutional and recurrent neural networks for multi-label text categorization[C]// International Joint Conference on Neural Networks. IEEE, 2017:2377-2383.

Project Gutenberg 语言模型数据集

发表于 2018-05-05

提供者:卢梦依
下载地址:https://www.gutenberg.org/

简介

数据集概述

该数据集包含超过57,000种免费电子书。可供选择epub、kindle,plainText格式,带图片和不带图片选项下载或在线阅读。包含众多的世界伟大的文学,特别是版权已过期的旧作品。在数千名志愿者的帮助下对其进行了数字化和认真校对。

文件

类型:epub、kindle、txt文本
数量:57000本免费电子书

相关论文

1.Kim Y. Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.
2.Joulin A, Grave E, Bojanowski P, et al. Bag of Tricks for Efficient Text Classification[J]. 2016:427-431.
3.Zhang Y, Wallace B. A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification[J]. Computer Science, 2015.
4.Ji Y L, Dernoncourt F. Sequential Short-Text Classification with Recurrent and Convolutional Neural Networks[J]. 2016:515-520.
5.Chen G, Ye D, Xing Z, et al. Ensemble application of convolutional and recurrent neural networks for multi-label text categorization[C]// International Joint Conference on Neural Networks. IEEE, 2017:2377-2383.

FigureQA

发表于 2018-05-05

提供者:刘晓
下载地址:https://datasets.maluuba.com/FigureQA/dl

简介

Maluuba推出了一个用于推理的可视化数据集FigureQA,并将研究相关论文《FigureQA: An Annotated Figure Dataset for Visual Reasoning》发布在ArXiv上。

在关系推理最新研究的启发下,研究人员推出了FigureQA数据集,其中包含了基于10多张图表的100多万对问答,用于研究机器理解和推理方面的问题。

FigureQA数据集中有五种常见的图表模型,这些图表能显示连续的和分类信息,分别为折线图、点图、垂直柱状图、水平条形图和饼图。而其中的问答对,会涉及到图表中元素一对一和一对多的关系,例如:X是中位数吗?X与Y相交吗?得出正确答案需要对多图表中的要素进行推理。

数据集

  • 数据集中包含的5种图表类型

数据集中的问题,共有15种类型,涉及到数值大小、最大值、最小值、中值、曲线下面积、平滑度和图像交叉点等信息。

  • FigureQA中包含的15类问题

问答集中问题均基于上述问题,答案统一为“是”或“否”。

  • 数据集以问答的形式呈现。
    Q:Medium Seafoam和Light Gold相交吗?
    A:是。
    Q:Medium Seafoam是否有最低值?
    A:否

微软团队在介绍论文中表示:“FigureQA是一个合成的数据集,类似视觉推理相关的CLEVR数据集。虽然数据没有真实环境中那么丰富,但能更大程度控制任务的复杂性,还支持辅助监管信号。此外,通过分析在FigureQA上训练的模型真实数据,还能扩展语料库处理弱项问题。”

制作过程

FigureQA数据集的生成制作分阶段进行。

首先,研究人员根据一组经过仔细调整的约束和启发式设计对数值数据进行采样,让使取样数据显得更自然。随后,研究人员用开源可视化库Bokeh绘制图表中的数据,得到定量数据。

此外,研究人员修改了所有图表的Bokeh后端输出的边界信息:包括数据点、坐标轴、坐标轴标签、标记和图注等信息。他们还提供了底层数值数据和一组边界数据作为每张图表的补充信息。

最后,研究人员平衡了每个问题答案中“是”和“否”的比例,这保证模型不会利用回答频率上的偏差来推断结果,而忽略视觉内容。

测试结果

在论文中,研究人员表示,FigureQA中测试集的准确率还达不到人类水平。接下来,研究人员计划测试在FigureQA上训练的模型在真实科学数据上的表现,并将数据集扩展到人类编写的自然语言问题上。FigureQA“官方”版的数据集可公开使用,是未来研究的基准。

数据集与人类回答15种问题的准确性对比

研究人员还提供了生成脚本,它们配置容易,使用户能调整生成参数生成自己数据。

关于FigureQA的介绍我们可以在ArXiv上一探究竟:

https://arxiv.org/abs/1710.07300

相关论文

[1] Samira Ebrahimi Kahou, Vincent Michalski, Adam Atkinson, Akos Kadar, Adam Trischler, Yoshua Bengio FigureQA: An Annotated Figure Dataset for Visual Reasoning 2017.

BIT-Vehicle数据集

发表于 2018-05-05

提供者:刘晓
下载地址: http://iitlab.bit.edu.cn/mcislab/vehicledb/

简介

BIT-Vehicle数据集包含9,850个车辆图像。图片中有16001200和19201080的图像,它们分别在不同时间和地点的两个摄像头拍摄。这些图像包含了光照条件、尺度、车辆表面颜色和视点的变化。由于捕获延迟和车辆的大小,一些车辆的顶部或底部部分不包括在图像中。在一个图像中可能有一或两辆车,所以每辆车的位置都是预先标注的。数据集也可以用来评估性能。

数据集内容

6车辆类型,9850张图片 【Download】

相关论文

[1] DONG Zhen, WU Yuwei, PEI Mingtao, and JIA Yunde. Vehicle Type Classification Using a Semisupervised Convolutional Neural Network. IEEE Transactions on Intelligent Transportation Systems (T-ITS), 2015(in press).
[2] DONG Zhen, PEI Mingtao, HE Yang, LIU Ting, DONG Yanmei, and JIA Yunde. Vehicle Type Classification Using Unsupervised Convolutional Neural Network. IEEE International Conference on Pattern Recognition (ICPR), 2014.

SVHN

发表于 2018-05-05

提供者:刘晓
下载地址:http://ufldl.stanford.edu/housenumbers/

简介

The Street View House Numbers (SVHN) 是一个用于开发机器学习和对象识别算法的真实世界图像数据集,对数据预处理和格式化的要求最低。它可以被视为与MNIST相似(例如,图像是小的被裁剪的数字),但是合并了一个数量级更多的标签数据(超过60万数字图像),并且来自一个更加困难的,未解决的,真实的世界问题(在自然场景图像中识别数字和数字)。SVHN是在谷歌街景图片中获得的。

数据集详情

name description
原始数据名称: The Street View House Numbers 数据集
数据介绍: The Street View House Numbers (SVHN) 是对图像中阿拉伯数字进行识别的数据集,改数据集中的图像来自真实世界的门牌号数字,图像来自Google街景中所拍摄的门牌号图片,每张图片中包含一组 ‘0-9’ 的阿拉伯数字。训练集中包含 73257 个数字,测试集中包含 26032 个数字,另有 531131 个附加数字。
数据来源: http://ufldl.stanford.edu/housenumbers/
文件大小: 2.45 Gb
记录数量: 6,30,420张图片被分布在10个类中。
SOTA: 虚拟对抗训练的分布平滑
格式: 1。具有字符级边框的原始图像。2。像mnist一样的32×32的图像以一个字符为中心(许多图像都包含一些干扰)。

相关论文

[1] Yuval Netzer, Tao Wang, Adam Coates, Alessandro Bissacco, Bo Wu, Andrew Y. Ng Reading Digits in Natural Images with Unsupervised Feature Learning NIPS Workshop on Deep Learning and Unsupervised Feature Learning 2011.
[2] Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, Kilian Weinberger Deep Networks with Stochastic Depth 2016.
[3] Chen-Yu Lee, Saining Xie, Patrick Gallagher, Zhengyou Zhang, Zhuowen Tu Deeply-Supervised Nets 2014.
[4] Ian J. Goodfellow, David Warde-Farley, Mehdi Mirza, Aaron Courville, Yoshua Bengio Maxout Networks
2013
[5] Min Lin, Qiang Chen, Shuicheng Yan Network In Network 2013.

Object Detection Evaluation

发表于 2018-05-05

提供者:刘晓
下载地址:http://www.cvlibs.net/datasets/kitti/eval_object.php

简介

Object Detection Evaluation 2012,是一个车辆检测或者定位有关的数据集。
物体检测和物体方向估计基准包括7481个训练图像和7518个测试图像,共包含80.256个标记物体。所有图像都是彩色的,并保存为PNG。为了评估,我们计算物体检测和定位相似召回(orientation-similarity-recall)的精确回忆曲线,用于联合目标检测和方向估计。在后一种情况下,不仅要正确定位对象二维边界框,而且还要评估鸟瞰图中的方向估计值。为了对方法进行排序,我们计算平均精度和平均方向的相似度。我们要求所有方法对所有测试对使用相同的参数集。我们的开发工具包提供了有关数据格式的详细信息以及用于读取和写入标签文件的MATLAB / C ++实用程序函数。

使用PASCAL标准和目标检测和方向估计性能评估目标检测性能,使用我们的CVPR 2012出版物中讨论的度量。对于汽车,我们要求重叠70%,而对于行人和骑自行车的人,我们需要50%的重叠来检测。在不关心的区域或探测中发现小于最小尺寸的探测,不被认为是假阳性。难点定义如下:

  • Easy: Min. bounding box height: 40 Px, Max. occlusion level: Fully visible, Max. truncation: 15 %
  • Moderate: Min. bounding box height: 25 Px, Max. occlusion level: Partly occluded, Max. truncation: 30 %
  • Hard: Min. bounding box height: 25 Px, Max. occlusion level: Difficult to see, Max. truncation: 50 %

所有的方法都基于中等难度的结果进行排名。值得注意的是,在被提供的边界框中,有2%的边界框没有被人类识别,因此在98%的情况下,上限的召回率为98%。因此,仅供参考。
注1:2017年4月25日,我们在对象检测评估脚本中修复了一个bug。到目前为止,提交检测过滤基于最小值边界框的高度为各自的类别,我们一直只做过检测地面真理,从而导致假阳性类别的“简单”25 - 39边界框的高度,Px提交时(为所有类别和假阳性如果边框小于25 Px提交)。
在这里可以找到更改之前的最后一个排行榜!

相关论文

[1] Andreas Geiger and Philip Lenz and Raquel Urtasun Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite 2012.

20 newsgroups

发表于 2018-05-05

提供者:刘唯

简介

20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档,均匀分为20个不同主题的新闻组集合。一些新闻组的主题特别相似(e.g. comp.sys.ibm.pc.hardware/ comp.sys.mac.hardware),还有一些却完全不相关 (e.g misc.forsale /soc.religion.christian)。

20newsgroups数据集有三个版本。第一个版本19997是原始的并没有修改过的版本。第二个版本bydate是按时间顺序分为训练(60%)和测试(40%)两部分数据集,不包含重复文档和新闻组名(新闻组,路径,隶属于,日期)。第三个版本18828不包含重复文档,只有来源和主题。

20news-19997.tar.gz –原始20 Newsgroups数据集
20news-bydate.tar.gz –按时间分类; 不包含重复文档和新闻组名(18846 个文档)
20news-18828.tar.gz– 不包含重复文档,只有来源和主题 (18828 个文档)
在sklearn中,该模型有两种装载方式,第一种是sklearn.datasets.fetch_20newsgroups,返回一个可以被文本特征提取器(如sklearn.feature_extraction.text.CountVectorizer)自定义参数提取特征的原始文本序列;第二种是sklearn.datasets.fetch_20newsgroups_vectorized,返回一个已提取特征的文本序列,即不需要使用特征提取器。

地址

http://qwone.com/~jason/20Newsgroups/20news-19997.tar.gz
http://qwone.com/~jason/20Newsgroups/20news-bydate.tar.gz
http://qwone.com/~jason/20Newsgroups/20news-18828.tar.gz

相关论文

[1]David Pinto,Paolo Rosso. Text, Speech and Dialogue[M].Springer Berlin Heidelberg:2007-06-15.
[2]Fábio Figueiredo,Leonardo Rocha,Thierson Couto,Thiago Salles,Marcos André Gonçalves,Wagner Meira Jr.. Word co-occurrence features for text classification[J]. Information Systems,2011,36(5).
[3]Le Dong,Ning Feng,Pinjie Quan,Gaipeng Kong,Xiuyuan Chen,Qianni Zhang. Optimal kernel choice for domain adaption learning[J]. Engineering Applications of Artificial Intelligence,2016,51.

MSLR

发表于 2018-05-05

提供者:刘唯

简介

微软发布的两个规模较大的learning to rank数据集
MSLR-WEB30k 30,000个查询query
从其中随机采样10,000个形成mslr-web10k

描述:

queries 和 urls 由ID来表示.
数据集包含了从q-u对中抽取的特征向量以及相关性评价标签
(1) 相关性评价来自于 Microsoft Bing,5分制, 从0 (不相关) 到 4 (最相关).

(2) 特征由作者抽取,基本上广泛用于研究社区
每行代表一个q-u对,第一栏是相关性分数,第2栏目是queryID,其他栏目是特征
The larger value the relevance label has, the more relevant the query-url pair is.
每个q-u 对由一个136维的特征向量表示

来自MSLR-WEB10K 的两个样本:

==============================================

0 qid:1 1:3 2:0 3:2 4:2 … 135:0 136:0

2 qid:1 1:3 2:3 3:0 4:0 … 135:0 136:0

==============================================

数据集分割:

分成5份一样大小的记为s1,….s5,用于交叉验证
建议3个用于训练,另外两个分别用于验证和测试
原文如下
We have partitioned each dataset into five parts with about the same number of queries, denoted as S1, S2, S3, S4, and S5, for five-fold cross validation. In each fold, we propose using three parts for training, one part for validation, and the remaining part for test (see the following table). The training set is used to learn ranking models. The validation set is used to tune the hyper parameters of the learning algorithms, such as the number of iterations in RankBoost and the combination coefficient in the objective function of Ranking SVM. The test set is used to evaluate the performance of the learned ranking models.

Folds Training Set Validation Set Test Set
Fold1 {S1,S2,S3} S4 S5
Fold2 {S2,S3,S4} S5 S1
Fold3 {S3,S4,S5} S1 S2
Fold4 {S4,S5,S1} S2 S3
Fold5 {S5,S1,S2} S3 S4

地址

https://www.microsoft.com/en-us/research/project/mslr/

相关论文

[1]Czernielewski J,Faure M,Schmitt D,Thivolet J. In vitro mixed skin cell lymphocyte culture reaction (MSLR) in man: analysis of the epidermal cell and T cell subpopulations.[J]. Clinical and Experimental Immunology,1982,50(2).
[2]Faure M,Czernielewski J,Schmitt D,Thivolet J. Mixed skin cell lymphocyte culture reaction (MSLR) in psoriasis.[J]. Journal of Dermatology,1983,10(6).
[3]Cochrum K C,Main R K,Kountz S L. A new matching technique: the mixed skin cell-leukocyte reaction, (MSLR).[J]. Surgery,1971,70(1).

movieslens

发表于 2018-05-05

提供者:刘唯

简介

MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。

这个数据集经常用来做推荐系统,机器学习算法的测试数据集。尤其在推荐系统领域,很多著名论文都是基于这个数据集的。(PS: 它是某次具有历史意义的推荐系统竞赛所用的数据集)。

地址

http://files.grouplens.org/datasets/movielens/

数据介绍

1m的数据解压后,可以看到四个主要的csv文件,分别是links.csv,movies.csv,ratings.csv,tags.csv。links介绍了该数据集中的movieId和imdb、tmdb中电影的对应关系。tags是用户的打标签数据。本文的介绍主要基于ratings.csv 和 movies.csv

ratings数据
文件里面的内容包含了每一个用户对于每一部电影的评分。数据格式如下:
userId, movieId, rating, timestamp
userId: 每个用户的id
movieId: 每部电影的id
rating: 用户评分,是5星制,按半颗星的规模递增(0.5 stars - 5 stars)
timestamp: 自1970年1月1日零点后到用户提交评价的时间的秒数
数据排序的顺序按照userId,movieId排列的。

movies数据
文件里包含了一部电影的id和标题,以及该电影的类别。数据格式如下:
movieId, title, genres
movieId:每部电影的id
title:电影的标题
genres:电影的类别(详细分类见readme.txt)

相关论文

[1]Harmanjeet Kaur,Neeraj Kumar,Shalini Batra. An efficient multi-party scheme for privacy preserving collaborative filtering for healthcare recommender system[J]. Future Generation Computer Systems,2018.

1…131415…22

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4