世界语言资源平台

  • 首页
  • 标签
  • 归档

Labelme

发表于 2018-06-02

提供者:刘唯

简介

Labelme是斯坦福一个学生的母亲利用休息时间帮儿子做的标注,后来便发展为一个数据集。该数据集的主要特点包括
(1)专门为物体分类识别设计,而非仅仅是实例识别
(2)专门为学习嵌入在一个场景中的对象而设计
(3)高质量的像素级别标注,包括多边形框(polygons)和背景标注(segmentation masks)
(4)物体类别多样性大,每种物体的差异性,多样性也大。
(5)所有图像都是自己通过相机拍摄,而非copy
(6)公开的,免费的

下载

图像如下图所示,需要通过matlab来下载,一种奇特的下载方式。
下载链接为http://labelme2.csail.mit.edu/Release3.0/index.php

相关论文

[1]吉江燕,方挺.基于Labelme的参考图像的手工分割[J].微型机与应用,2015,34(17):49-51+56.
[2]Bryan C. Russell, Antonio Torralba, Kevin P. Murphy, William T. Freeman.International Journal of Computer Vision[J].LabelMe: A Database and Web-Based Tool for Image Annotation.
[3]

Open Image

发表于 2018-06-02

提供者:刘唯

简介

过去几年机器学习的发展使得计算机视觉有了快速的进步,系统能够自动描述图片,对共享的图片创造自然语言回应。其中大部分的进展都可归因于 ImageNet 、COCO这样的数据集的公开使用。谷歌作为一家伟大的公司,自然也要做出些表示,于是乎就有了Open Image。

Open Image是一个包含~900万张图像URL的数据集,里面的图片通过标签注释被分为6000多类。该数据集中的标签要比ImageNet(1000类)包含更真实生活的实体存在,它足够让我们从头开始训练深度神经网络。

谷歌出品,必属精品!唯一不足的可能就是它只是提供图片URL,使用起来可能不如直接提供图片方便。

数据集大小

~1.5GB(不包括图片)

下载地址

https://github.com/openimages/dataset

相关论文

[1]M. Hu&scaron,ek. Open images of orderable spaces[J]. proc,1983,88(4).
[2]Davide Lombardo. An explicit open image theorem for products of elliptic curves[J]. Journal of Number Theory,2016,168.

百度BROAD-Video Highlights视频精彩片段数据集

发表于 2018-06-02

提供者:刘晓

地址:http://ai.baidu.com/broad

简介

该数据集(下文中简称为BROAD-VH数据集)在介绍中将其定义为视频精彩片段提取任务。具体而言,就是提取视频中可能包含精彩片段的时间区域,而不需要对精彩片段的类别进行分类。该任务实际上与我之前介绍过的temporal action proposal 任务(相关介绍和算法可以参考Temporal Action Detection (时序动作检测)方向2017年会议论文整理)是完全相同的。

视频及数据信息

BROAD-VH数据集主要来源于爱奇艺视频。视频类型为综艺节目,目前包括1500个长视频,视频总时长约1200小时。该数据集的视频时长分布图如下图所示(长度单位为帧)。按照总帧数和总时长的比例,估计采样的fps大概为1.5吧,算是比较低的采样频率了。

训练/验证/测试集的视频数量划分为1262/120/117。

该数据集通过爱奇艺网页link的方式提供了原始视频(即需要爬虫下载或手动下载),此外还提供了提取好的image feature和audio feature。这两种特征均在视频的每一帧上提取,维度均为2048。比如对于一个长度为1000帧的视频,image和audio特征矩阵的大小均为1000*2048。

标签信息及分布

该数据集中一共有18000个精彩片段的时序标注,平均一个视频有12个时序标注。这些精彩片段的总时长占1500个小时中的750个小时,即有一半左右的视频时长被标注为了精彩片段。

我对训练集的标签信息进行了分析,分析的主要内容为精彩片段时长的分布,分布直方图如下图所示。

可以看出,大部分精彩片段的长度都在30-300帧的范围。

测评方式

测评方式部分与通常temporal action proposal任务中不同,并没有使用average recall (平均召回率),而是同detection任务一样使用了mAP,此处将所有highlights片段都看作为了一个动作类别。比较有趣的是,BROAD-VH基本上直接使用了ActivityNet Challenge的detection任务测评代码(略有改动)。

简要分析

根据上面的介绍以及分析内容,可以对这个数据集进行一些简单的评价:

  • 单个视频的时长可能很长(小时级别),单个视频中包含的精彩片段也比较多,这点与THUMOS数据集很像,而与单个视频时长短且包含片段少的ActivityNet数据集差异大
  • 数据集标注的格式,测评代码等方面应该是直接参考的ActivityNet 数据集做的
  • 数据的规模还是比较大的,从时长方面看比ActivityNet要长(ActivityNet时长大约为700小时)
  • 视频的来源均为综艺视频,这点表明这个数据集的来源多样性比较单一
  • 提供特征,其目的应该是节省研究者的计算开销。估计1500小时的视频,提取一遍特需要很长的时间。。根本没法玩。所以有现成的特征挺不错的。

简单的尝试

下完数据集我就先跑了一个最简单的baseline方法,即activitynet challenge 2017 proposal task中的baseline:uniform random 方法。代码主要参考了activitynet官方提供的代码:activitynet/proposals

简单而言,就是在视频随机的位置产生随机长度的proposals,并给予随机的confidence score。在验证集中,对于每个视频我生成了200个proposals,得到的mAP大概在0.027 左右。

AVA(atomic visual actions)

发表于 2018-06-02

提供者:刘晓

地址:http://research.google.com/ava/

简介

教机器理解视频中的人的行为是计算机视觉中的一个基本研究问题,谷歌blog发布了一个堪比“视频版”ImageNet的数据集-AVA(A Finely Labeled Video Dataset for Human Action Understanding ),旨在教机器理解人的活动。 该数据集以人类为中心进行标注,包含80类动作的 57600 个视频片段,有助于人类行为识别系统的研究。   

教机器理解视频中的人的行为是计算机视觉中的一个基本研究问题,对个人视频搜索和发现、运动分析和手势界面等应用十分重要。尽管在过去的几年里,对图像进行分类和在图像中寻找目标对象方面取得了令人兴奋的突破,但识别人类的动作仍然是一个巨大的挑战。这是因为动作的定义比视频中的对象的定义要差,因此很难构造一个精细标记的动作视频数据集。许多基准数据集,例如 UCF101、activitynet 和DeepMind 的 Kinetics,都是采用图像分类的标记方案,在数据集中为每个视频或视频片段分配一个标签,而没有数据集能用于包含多个可能执行不同动作的人的复杂场景。

谷歌上周发布一个新的电影片段数据集,旨在教机器理解人的活动。这个数据集被称为 AVA(atomic visual action),这些视频对人类来说并不是很特别的东西——仅仅是 YouTube 上人们喝水、做饭等等的3秒钟视频片段。但每段视频都与一个文件捆绑在一起,这个文件勾勒了机器学习算法应该观察的人,描述他们的姿势,以及他们是否正在与另一个人或物进行互动。就像指着一只狗狗给一个小孩看,并教他说“狗!”,这个数据集是这类场景的数字版本。

数据集特点

相比其他的动作数据集,AVA数据集有以下这些特点:

以人为中心进行标注:每个动作标签都基于人物本身,而不是一段视频或者剪辑片段。因此,我们能够为不同动作中的各类人加上不同的标签,这一点非常常见。

原子级视觉动作:我们对需要标注的动作进行了合理的时间限制(3秒钟),以确保动作符合人的生理机能,同时有明显的视觉特征。

真实视频作为视觉材料:我们使用不同题材和国家的电影作为AVA的标注材料,进而确保数据库中包含各类型的人类行为。

视频来源中的3秒视觉片段标签,用方框标注出每个动作素材(为确保清晰,每个例子中只出现了一个框。)

为创建 AVA,我们首先从 YouTube 上收集了大量多样化的数据,主要集中在「电影」和「电视」类别,选择来自不同国家的专业演员。我们对每个视频抽取 15 分钟进行分析,并统一将 15 分钟视频分割成 300 个非重叠的 3 秒片段。采样遵循保持动作序列的时间顺序这一策略。

接下来,我们为每个 3 秒片段中间帧的人物手动标注边界框。对标注框中的每个人,标注者从预制的原子动作词汇表(80 个类别)中选择适当数量的标签来描述人物动作。这些动作可分为三组:姿势/移动动作、人-物互动和人-人互动。我们对执行动作的所有人进行了全部标注,因此 AVA 的标签频率遵循长尾分布,如下图所示。

AVA 的原子动作标签分布。x 轴所示标签只是词汇表的一部分。

AVA 的独特设计使我们能够获取其他现有数据集中所没有的一些有趣数据。例如,给出大量至少带有两个标签的人物,我们可以判断动作标签的共现模式(co-occurrence pattern)。下图显示 AVA 中共现频率最高的动作对及其共现得分。我们确定的期望模式有:人们边唱歌边弹奏乐器、拥吻等。

AVA 中共现频率最高的动作对。

为评估基于 AVA 数据集的人类动作识别系统的高效性,我们使用一个现有的基线深度学习模型在规模稍小一些的 JHMDB dataset 上取得了具备高竞争性的性能。由于存在可变焦距、背景杂乱、摄影和外观的不同情况,该模型在 JHMDB dataset 上的性能与在 AVA 上准确识别动作的性能(18.4% mAP)相比稍差。这表明,未来 AVA 可以作为开发和评估新的动作识别架构和算法的测试平台。

相关论文

[1] Chunhui Gu, Chen Sun, David A. Ross, Carl Vondrick, Caroline Pantofaru, Yeqing Li, Sudheendra Vijayanarasimhan, George Toderici, Susanna Ricco, Rahul Sukthankar, Cordelia Schmid, Jitendra Malik, AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions, 2017

Kinetics-600 dataset

发表于 2018-06-02

提供者:刘晓

地址:https://deepmind.com/research/open-source/open-source-datasets/kinetics/

背景与来源

目前activitynet第三届比赛已经开始了,这项比赛始于2016CVPR,是与ImageNet齐名的在视频理解方面最重要的比赛。

在这个比赛下的Task A – Trimmed Action Recognition比赛是一个视频分类比赛,数据集就是kinetics-600数据集。数据集有Google的deepmind团队提供,2017年是第一届比赛,当时有400个类别,20多万数据,今年又对数据集进行了扩增,现在有600个类别,共50万左右的视频。

介绍

视频来源于YouTube,一共有600个类别,每个类别至少600个视频以上,每段视频持续10秒左右。类别主要分为三大类:人与物互动,比如演奏乐器;人人互动,比如握手、拥抱;运动等。即person、person-person、person-object。

论文介绍

数据集类别介绍

下面这些介绍主要是参考于17年deepmind发的论文”The Kinetics Human Action Video Dataset”,当时还是400类的数据集。论文请见。

数据集主要关注人类行为,action类的列表包括:

单人行为,例如绘画,喝酒,大笑,抽拳;

人人行为,例如拥抱,亲吻,握手;

人物行为,例如打开礼物,修剪草坪,洗碗。

一些行动是比较细粒度的,需要时序推理来区分,例如,不同类型的游泳。其他动作类别需要强调区分对象,例如演奏不同类型的乐器。

这些类别并没有严格的层级划分,但是还是有些的,类似父类子类关系,例如音乐类(打鼓、长号、小提琴、……),个人卫生类(刷牙、剪指甲、洗手、……),跳舞类(芭蕾、macarena、tap、……),烹饪(切割、煎、脱皮、……)等。

数据集有400个类别,每个动作都有400-1150个视频片段,每段视频的时长都在10秒左右。目前的版本有306245视频,分为三个部分,训练时每个类为250-1000个视频,验证时每个类50个视频,测试时每个类100个视频。

每个类都包含了一种行动。但是,一个特定的剪辑可以包含
几种动作。例如,开车”时“发短信”;“弹奏尤克里里”时“跳草裙舞”;“跳舞”时“刷牙”。这种情况下,这个视频只会标记一个标签,并不会同时存在于两个类种。因此,取top-5的准确率更为合适。

Benchmark

一共验证了三种处理行为识别的主流模型,分别是LSTM、two stream和3dcnn。

放上准确率,可以看出two-stream还是占据主导优势的。在kinetics数据集上,top-1是61.0,top-5是81.3。

分类结果分析

上图是那些类分的比较好,那些类分的比较差。

还有一点,由于很多动作比较细粒度,类别之间容易造成混淆,论文中也给出了最容易混淆的几个类别,比如,跳远和三级跳远,吃汉堡和吃甜甜圈。swing跳舞和跳萨尔萨舞等都会混淆。

如下图:

当然,由于使用two stream模型,光流模型和RGB模型可能对不同的动作有不同的准确度,对于这些特定类别,可以在融合时对光流和RGB设定不同的权重。

粒度划分

最后给出这些类别的一个粒度划分,可能有多个类别都会属于同一大类。即父类子类关系。

首先列出有哪些父类,然后再给出每个父类下的子类。

父类:

共38大类,每个类后面的数字代表有几个子类。



















相关论文

[1] Will Kay, Joao Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, Mustafa Suleyman, Andrew Zisserman, The Kinetics Human Action Video Dataset, 2017

Moments in Time

发表于 2018-06-02

提供者:刘晓

地址:http://link.zhihu.com/?target=http%3A//moments.csail.mit.edu/

简介

在过去一年中,视频理解相关的领域涌现了大量的新模型、新方法,与之相伴的,今年也出现了多个新的大规模的视频理解数据集。近期,MIT-IBM Watson AI Lab 就推出了一个全新的百万规模视频理解数据集Moments-in-Time虽然没有之前的YouTube-8M数据集大,但应该是目前多样性,差异性最高的数据集了。该数据集的任务仍然为视频分类任务,不过其更专注于对“动作”的分类,此处的动作为广义的动作或动态,其执行者不一定是人,也可以是物体或者动物,这点应该是该数据集与现有数据集最大的区分。本文中简单的统称为“动作”。

数据集概览

这部分主要对数据集的基本情况和特性进行介绍,大概可以总结为以下几点:

  • 共有100,0000个视频,每个视频的长度相同,均为3s
  • 每个视频有一个动作标签(后续版本可能拓展为多标签),此处的动作仅为动词,比如“opening”就为一个标签(与之不同,其他数据集经常会采用动名词组的形式如”opening the door”)
  • 动作主体可以是人,动物,物体乃至自然现象。
  • 数据集的类内差异和类间差异均很大。
  • 存在部分或完全依赖于声音信息的动作,如clapping(拍手)
    由上述描述可以看出,由于超大的数据量以及多样性,这个数据集是相当难的,下图则为该数据集的一个例子。可以看出,一个动作类别可以由多种动作主体完成,从而从视觉上看的差异性相当的大,动作的概念可以说是相当抽象了。

下面我对作者构建这个数据集的方式进行介绍,这部分内容也有助于对该数据集的理解。

数据集的构建

建立动作的字典

该数据集采用的是先确定动作标签,再根据动作标签构建视频集合的方式。构建动作标签集合,在该数据集中即构建一个合适的动作字典。主要通过以下几个步骤实现:

  • 参考[2]中的内容,选取4500个美式英语中最常用的动词
  • 按照词义对这4500个词进行聚类,一个动词可以属于多个聚类
  • 迭代的从最常见的聚类中选取最常见的动词加入目标字典
  • 最终从4500个初始动词中选取339个最常见的动词作为字典

数据收集与标注

在确定好动词字典后,作者对每个动词,在多个视频网站上进行视频的爬取。这里的视频网站比较多,包含YouTube,Flicker,Vine等十几个网站,比起只用YouTube的ActivityNet,Kinectic等数据集在来源的丰富性上要高不少。

在爬完数据后,每个视频都是以 视频-动词 对的形式呈现,标注工作的主要目的就是确定视频是否可以用动词描述,所以是一个二分类的标注任务(此处作者的解释是,多分类的标注对于标注者难度太高,也容易错,故采用二分类的标注方式)。标注工作在近来大量数据集都采用的Amazon Mechanical Turk实现。

对于每个标注者,都会被分配64个待标注的动词-视频对以及10个已知真值的动词-视频对。在10个已知真值的动词-视频对中,只有标对9个及以上,该标注者的标注结果才会被认为是有效的。剩下的所有动词-视频对,都会被交由2个标注者,只有俩人的标注结果一致,该结果才会被采用。所以从标注角度来看,这个数据集的标签质量应该还是不错的。标注界面的样式如下图所示,可以看出还是相当简洁明了的。

数据集的数据分布

接下来我主要对该数据集的数据分布进行介绍,由于该数据集目前还没有正式放出,所以所有数据和图表均来自论文。

首先是数据集的类别分布:

  • 对于339个动作类别,共有超过100000个标注视频
  • 每个类别至少有1000个视频,每个类别视频数量的平均值是1757,中值是2775

类别与类别视频数量的关系图如下图所示。

接下来,作者介绍了数据集中动作主体的分布情况,如前所述动作主题可能是人,动物或一般物体。作者统计了不同类别视频中各类动作主题所占比例的分布,如下图所示。左侧的极端是“typing“,主体全部是人类,右边的极端是”overflowing”,动作主题基本不是人类。

最后,作者分析了数据集各个类别中依赖于声音的视频所在的比例。此处,依赖于声音的视频是指该视频无法从图像上判断出其包含的动作,而必须要听声音。从下图可以看出,有相当比例的视频是依赖于声音的,这点要增加了该数据集的挑战性。

场景、物体与动作之前的相关性探索

最后,作者通过一组简单的实验探索了各个数据集中 物体-场景-动作 之间的相关性。此处分析的视频数据集除了Moments in Time外, 还包括UCF-101, ActivityNet 1.3 以及Kinetics数据集。

这里的实验设置还蛮有趣的。作者分别采用了一个在ImageNet上训练的Resnet50用于物体分类,一个在Places数据集上训练的Resnet50用作场景分类。对于每个视频,均匀抽取3帧并利用两个网络进行检测并平均结果,可以得到一个物体label以及一个场景label。对于物体或场景label,作者通过贝叶斯公式来推断对应的动作类别,其中先验概率在数据集的训练集上计算获得。

实验结果如下表所示,可以得到以下几点结论:

  • 动作与场景以及物体均是相关的。
  • Moments in Time数据集中,动作与物体以及场景的相关性显著弱于其他几个数据集,这表明该数据集有更高的挑战性以及更大的难度。

个人讨论

Moments-in-Time数据集我觉得还是相当有趣以及有挑战性的,估计很快就会有不少人跟进来做这个数据集(显而易见需要比较大的计算资源…)。下面是我对于该数据集的一些讨论内容,包括优点以及一些个人存在疑惑的地方。

优点:

  • 数据集的大小和丰富程度很高,足以训练较复杂的视频分类模型。
  • 视频的长度统一为3s,这样的设计方便实验时进行处理,也使得数据集的尺寸不至于过大。
  • 数据标注的策略应该还是比较靠谱的,应该不太会有错误标注。

以上是几点明显的优点,但对于作者强调的几个数据集优点,我则存在一些疑惑:

  • 仅用动词定义动作:这个应该是这个数据集和其他数据集相比最大的一个差异点。作者认为通过该数据集能够学习一个泛化能力很强的动作概念,但在我看来这样的定义有些太过宽泛了。动词的含义常常依赖于其主语和谓语,单独的动词即便对于人类而言也常常是含义模糊的。此处可以参考今年ICCV上的[3]一文,我此前也写过一篇笔记:https://zhuanlan.zhihu.com/p/29227174 介绍这篇文章。这篇文章中一个重要的观点是,动作应该用动词-名词组合来定义,从而明确其含义。不过该数据集也是故意在此处模糊化从而增加类内差异,现在也不能够知道是否是一个好的设计了。
  • 动作的主体不一定是人:这点也是数据集作者有意设计,从而增加难度以及多样性。我也持有同样的对于定义不清晰的疑惑,比如人开门(“opening”)和风吹开了一扇窗户(”opening“)放在同一个类别中总感觉不太合理。此外,此处还有一个问题,尽管温中给出了动作主体的分析,但通过询问作者,第一版的数据集不会提供动作主体的label,而仅包含一个动作label。
  • 依赖声音的动作:这点我觉得倒是蛮好的,可以促进多模态方法的发展。但是同以上一点,该数据集在训练集中并没有告知这个视频中的动作是否是依赖与声音的。如果有相关的标签,我觉得会更有助于视频的理解吧。作者可能会在后续版本加上。
    总体而言,这个新数据集还是很有趣且充满挑战的,与此前的多个主要关注人类动作的数据集在设定上有较大的差异。针对这个数据集,模型方面应该更注重于对动作概念的理解以及对较大的类内差异性的处理。期待之后针对该数据集的算法了。

相关论文

[1] Monfort M, Zhou B, Bargal S A, et al. Moments in Time Dataset: one million videos for
event understanding[J].

[2] Salamon J, Jacoby C, Bello J P. A dataset and taxonomy for urban sound research[C]//Proceedings of the 22nd ACM international conference on Multimedia. ACM, 2014: 1041-1044.

[3] Sigurdsson G A, Russakovsky O, Gupta A. What Actions are Needed for Understanding
Human Actions in Videos?[J]. arXiv preprint arXiv:1708.02696, 2017.

UCF101 - Action Recognition Data Set

发表于 2018-06-02

提供者:刘晓

地址:http://crcv.ucf.edu/data/UCF101.php

简介

UCF101是一个动作识别数据集,包含现实的动作视频,从YouTube上收集,有101个动作类别。该数据集是UCF50数据集的扩展,该数据集有50个动作类别。
从101个动作类的13320个视频中,UCF101给出了最大的多样性,并且在摄像机运动、物体外观和姿态、物体尺度、视点、杂乱背景、光照条件等方面存在较大的差异,这是迄今为止最具挑战性的数据。
由于大多数可用的动作识别数据集都不现实,而且是由参与者进行的,UCF101旨在通过学习和探索新的现实行动类别来鼓励进一步研究行动识别。
101个动作类的视频被分成25组,每个组可以包含4-7个动作视频。同一组的视频可能有一些共同的特点,比如背景相似、观点相似等。

动作类别可以分为五类:

  • Human-Object Interaction
  • Body-Motion Only
  • Human-Human Interaction
  • Playing Musical Instruments
  • Sports.

UCF101数据集的操作类别为:应用眼妆、唇膏、射箭、婴儿爬行,平衡木,乐队游行,棒球,篮球,篮球扣篮,卧推,骑自行车,台球,吹干头发,吹蜡烛,体重下蹲,保龄球,拳击出气筒,拳击袋速度,蛙泳,刷牙,挺举,悬崖跳水,板球保龄球,板球,削减在厨房,潜水,打鼓,击剑、曲棍球点球,地板体操,飞盘,爬泳,高尔夫挥杆,发型、链球、锤击,倒立俯卧撑,倒立行走,头部按摩,跳高,赛马,骑马、呼啦圈、冰上舞蹈,掷标枪,杂耍球,跳绳,跳杰克,皮划艇,针织,跳远,弓步,阅兵,搅拌面糊、拖地板,修女轻叩,双杠,披萨扔,弹吉他,弹钢琴,打手鼓,演奏小提琴,演奏大提琴,玩来说,玩时代,演奏长笛,玩锡塔尔琴,撑杆跳,鞍马、拉Ups、穿孔、俯卧撑、漂流、攀岩室内,绳索攀爬、划船、萨尔萨舞旋转,剃胡子,推铅球,滑板,滑雪,Skijet,跳伞,足球杂耍,足球点球,还是戒指,相扑,冲浪,秋千,乒乓球拍、太极、网球挥拍,扔铁饼,蹦床跳,打字,高低杠,排球飙升,与狗一起散步,“推墙”,写作,溜溜球。

下载UCF101数据集:http://crcv.ucf.edu/data/UCF101/UCF101.rar

UCF101数据集的动作识别( Action Recognition)的训练/测试集下载地址:http://crcv.ucf.edu/data/UCF101/UCF101TrainTestSplits-RecognitionTask.zip

UCF101数据集的动作检测( Action Detection)的训练/测试集下载地址:http://crcv.ucf.edu/data/UCF101/UCF101TrainTestSplits-DetectionTask.zip

UCF101数据集的STIP特性可以在这里下载:Part1,Part2

Statistics

注意:将属于同一组的视频保持在训练和测试中非常重要。由于一组中的视频是从单个长视频中获得的,因此在训练和测试套件中共享来自同一组的视频会获得较高的性能。

相关论文

[1] Khurram Soomro, Amir Roshan Zamir and Mubarak Shah, UCF101: A Dataset of 101 Human Action Classes From Videos in The Wild, CRCV-TR-12-01, November, 2012.

CoPhIR 数据集

发表于 2018-06-02

提供者:刘晓
地址:http://cophir.isti.cnr.it/whatis.html

简介

雅虎发布的超大Flickr数据集,包含1亿多张图片。
CoPhIR(Content-based Photo Image Retrieval,基于内容的照片图像检索)测试集合的开发旨在对SAPIR项目基础设施(SAPIR:使用对等IR中的音频视频内容进行搜索)的可扩展性进行重要测试以进行相似性搜索。 CoPhIR是NMIS实验室与意大利比萨ISTI-CNR的HPC实验室共同努力的成果。 我们通过DILIGENT项目使用EGEE European GRID从Flickr存档提取元数据。 对于每个图像,已经提取了标准的MPEG-7图像特征。试验台的每个入口都包含:

  • 链接Flickr网站的相应条目
  • 照片图像缩略图
  • 一个XML结构,在相应的Flickr条目中包含Flickr用户信息:标题,位置,GPS,标签,注释等。
  • 具有5个提取的标准MPEG-7图像特征的XML结构:

    • 可伸缩的色彩
    • 色彩结构
    • 色彩布局
    • 边缘直方图
    • 均匀纹理

迄今收集的数据代表世界上最大的多媒体元数据收集,可用于可扩展相似性搜索技术的研究。 CoPhIR包含1.06亿个处理过的图像。

CoPhIR现在可供研究人员尝试比较不同的索引技术进行相似性搜索,其中可扩展性是关键问题。

我们使用Flickr图片内容符合Creative Commons许可。 CoPhIR测试集合符合基于WIPO(世界知识产权组织)版权条约和表演和录音制品条约以及意大利现行法律68/2003的欧洲第29/2001号建议书。
为了访问CoPhIR发行版,有兴趣在其上进行实验的组织(大学,研究实验室等)将必须签署随附的CoPhIR访问协议和CoPhIR访问注册表,将原始签名文件通过邮件发送给我们。请按照“如何获得CoPhIR测试集合”一节中的说明进行操作。然后,您将收到登录和密码以下载所需的文件。

使用–获得CoPhIR测试集

  • 发送电子邮件到 cophiristi.cnr.it (subject: new access to Cophir),包含有必要信息的请求(见请求模板)。
  • 打印CoPhIR Access Agreement和CoPhIR Access Registration Form (doc, pdf),填写所需信息,然后由授权人签署正本文件。
  • 将两份文件邮寄至

Dr. Fausto Rabitti
NMIS Lab.
ISTI-CNR, Pisa Research Area
Via Moruzzi, 1
56124 Pisa (Italy).

  • 我们将发送到您的电子邮件地址,在访问注册表中显示,一封包含登录名和密码的电子邮件将用于访问CoPhIR测试集合。

  • 要下载CoPhIR测试集合的文件,请在CoPhIR网站上输入下载部分并使用您的登录名和密码。

相关论文

[1] F Rabitti, R Perego,F Falchi,C Lucchese, P Bolettieri, CoPhIR (Content-based Photo Image Retrieval) Test-Collection, 2008
[2] M Batko,P Kohoutkova,D Novak, CoPhIR Image Collection under the Microscope, 2009

AI2科学问答数据集(多选)

发表于 2018-05-27

提供者:刘唯
下载地址:https://www.kaggle.com/allenai/ai2-science-questions

简介

数据集概述

Allen Institute for Artificial Intelligence (AI2)的Project Aristo专注于构建一个系统,该系统能够获取并存储大量的可计算形式的知识,然后将这些知识应用于不同年级水平的学生的标准化考试中的各种科学问题。我们邀请更广泛的人工智能研究社区,通过提供学生科学评估问题的数据集,来与我们共同应对这一重大挑战。
这些都是英语语言问题,它跨越了文件中所显示的几个年级水平。每个问题都是对应4个选择回答。其中一些问题包括一个图表,作为问题文本的一部分,作为回答选项,或者两者兼而有之。图在文本中表示,文件名对应于对应文件夹中的图文件本身。这些问题被预先划分为培训、开发和测试集。
数据集包括以下字段:
questionID: a unique identifier for the question
originalQuestionID: the question number on the test
totalPossiblePoints: how many points the question is worth
AnswerKey: the correct answer option
isMultipleChoiceQuestion: 1 = multiple choice, 0 = other
includesDiagram: 1 = includes diagram, 0 = other
examName: the source of the exam
schoolGrade: grade level
year: year the source exam was published
question: the question itself
subject: Science
category: Test, Train, or Dev (data comes pre-split into these categories)

文件

大小:56MB

相关论文

1.Clark, Peter. “Elementary School Science and Math Tests as a Driver for AI: Take the Aristo Challenge!” AAAI (2015).

完形填空(多选阅读理解)数据集

发表于 2018-05-27

提供者:刘维
下载地址:https://tticnlp.github.io/who_did_what/index.html

简介

数据集概述

我们已经构建了一个新的“Who-did-What”数据集,该数据集包含了来自LDC英语Gigaword newswire语料库构建的超过20万填充物(cloze)的多重选择阅读理解问题。WDW数据集具有多种新特性。首先,与CNN和每日邮件数据(Hermann et al., 2015)相比,我们避免使用文章摘要来回答问题。相反,每一个问题都是由两篇独立的文章组成的——一篇文章作为一篇文章,另一篇文章是关于同一事件的一篇文章。第二,我们避免匿名化——每个选择都是一个人的名字。第三,这些问题被过滤掉,去掉了一个简单的基线可以轻易解决的分数,而剩下的84%由人类来解决。我们报告了标准系统的性能基准,并提出WDW数据集作为社区的一项挑战任务。

文件

大小:包含了37322个50个动物的图像。
1.CUHK student data set 含188张faces
2.AR data set (123 faces)
3.XM2VTS data set (295 faces)

相关论文

[1] Y. Xian, C. H. Lampert, B. Schiele, Z. Akata. “Zero-Shot Learning - A Comprehensive Evaluation of the Good, the Bad and the Ugly” arXiv:1707.00600

[2] C. H. Lampert, H. Nickisch, and S. Harmeling. “Learning To Detect Unseen Object Classes by Between-Class Attribute Transfer”. In CVPR, 2009
[3] C. H. Lampert, H. Nickisch, and S. Harmeling. “Attribute-Based Classification for Zero-Shot Visual Object Categorization”. IEEE T-PAMI, 2013

1…789…22

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4