提供者:卢梦依
下载地址:http://www.msmarco.org/dataset.aspx
简介
数据集概述
MS MARCO微软问答数据集,这个新的数据集旨在克服以前公开可用的数据集的一些众所周知的弱点,用于阅读理解和问题回答的相同任务。在MS MARCO中,所有问题都是从真正的匿名用户查询中抽取的。使用最高级版本的Bing搜索引擎从真实的Web文档中提取数据集中的答案来源的上下文段落。查询的答案是人为生成的。最后,这些查询的一个子集有多个答案。目标是在数据集中发布一百万个查询和相应的答案,据我们所知,这是数量和质量上最全面的同类数据集。
文件
该数据集包括:1,010,916 Real Bing User Queries,182,669 Natural Language Answers.No Answer Subset,10 Passages Per Query
- 与其他问答数据集的比较:
- 数据的组成:
相关论文
1.Nguyen T, Rosenberg M, Song X, et al. MS MARCO: A Human Generated MAchine Reading COmprehension Dataset[J]. 2016.