完形填空(多选阅读理解)数据集

发表于 2018-05-27

提供者：刘维
下载地址：https://tticnlp.github.io/who_did_what/index.html

简介

数据集概述

我们已经构建了一个新的“Who-did-What”数据集，该数据集包含了来自LDC英语Gigaword newswire语料库构建的超过20万填充物(cloze)的多重选择阅读理解问题。WDW数据集具有多种新特性。首先，与CNN和每日邮件数据(Hermann et al.， 2015)相比，我们避免使用文章摘要来回答问题。相反，每一个问题都是由两篇独立的文章组成的——一篇文章作为一篇文章，另一篇文章是关于同一事件的一篇文章。第二，我们避免匿名化——每个选择都是一个人的名字。第三，这些问题被过滤掉，去掉了一个简单的基线可以轻易解决的分数，而剩下的84%由人类来解决。我们报告了标准系统的性能基准，并提出WDW数据集作为社区的一项挑战任务。

文件

大小：包含了37322个50个动物的图像。
1.CUHK student data set 含188张faces
2.AR data set (123 faces)
3.XM2VTS data set (295 faces)

相关论文

[1] Y. Xian, C. H. Lampert, B. Schiele, Z. Akata. “Zero-Shot Learning - A Comprehensive Evaluation of the Good, the Bad and the Ugly” arXiv:1707.00600

[2] C. H. Lampert, H. Nickisch, and S. Harmeling. “Learning To Detect Unseen Object Classes by Between-Class Attribute Transfer”. In CVPR, 2009
[3] C. H. Lampert, H. Nickisch, and S. Harmeling. “Attribute-Based Classification for Zero-Shot Visual Object Categorization”. IEEE T-PAMI, 2013

CNLR

语料库、数据集及工具资源和教程

1. 简介
1. 1.1. 数据集概述
2. 文件
3. 相关论文