世界语言资源平台

  • 首页
  • 标签
  • 归档

(街头)时尚服饰数据集

发表于 2018-06-23

提供者:卢梦依
下载地址:http://www.msmarco.org/dataset.aspx

简介

数据集概述

CCP数据集来自“通过联合图像分割和标签分析服装”(CVPR 2014)。服装共解析(CCP)数据集是一个新的服装数据库,包括精心注释的服装项。

  • 2098高分辨率的街头时尚照片共有59个标签
  • 广泛的风格,配件,服装和姿势
  • 所有图像都带有图像级注释
  • 1000多个图像都带有像素级注释

文件

根目录包含以下文件和文件夹:

照片/ - 原始照片的目录
注释/ - 注释目录
像素级/ - 像素级注释(1004个文件)
图像级/图像级注释(1094个文件)
show_pixel_anno.m - 使用像素级注释的演示代码
show_image_anno.m - 使用图像级注释的演示代码
label_list.mat - [1 * 59]单元格数组,将标签号码映射到标签名称
samples.jpg - 样本注释
README.md - 概述文件

相关论文

1.Yang W, Luo P, Lin L. Clothing Co-parsing by Joint Image Segmentation and Labeling[J]. 2015:3182 - 3189.

1950年以来NBA球员状态&表现数据集

发表于 2018-06-23

提供者:卢梦依
下载地址:https://www.kaggle.com/drgilermo/nba-players-stats/data

简介

数据集概述

数据集包含67个NBA赛季的总体个人统计数据。 从分数,助攻,篮板等基本分数得分属性到更高级的像球员替换值这样的球类功能。

数据来自Basketball-reference在他们的术语表中查看详细的栏目描述术语表.

相关论文

1.Izzo R. A scientific approach to building training with particular reference to basketball – match analysis[J]. Timisoara Physical Education & Rehabilitation Journal, 2010, 3(5).

基于语义Web机器学习系统评估的基准数据集

发表于 2018-06-23

提供者:卢梦依
下载地址:http://data.dws.informatik.uni-mannheim.de/rmlod/LOD_ML_Datasets/

简介

数据集概述

近年来,已经提出了几种在语义网上进行机器学习的方法。 但是,这些方法之间没有广泛的比较,特别是由于缺乏公开可用的公认基准数据集。 在这里,我们提供了来自现有语义Web数据集以及与链接开放数据云中的数据集相关的外部分类和回归问题的不同大小的22个基准数据集的集合。 这样的数据集合可以用来进行定量性能测试和方法的系统比较,由于数据集的数量,这也可以确定研究结果的统计显着性。

我们的数据集合包括22个数据集,分为三类:

  • 机器学习实验中常用的现有数据集
  • 由官方观察产生的数据集
  • 数据集从现有的RDF数据集生成。

前两个类别中的每个数据集最初都链接到DBpedia。 这主要有两个原因:(1)DBpedia是跨域知识库,可用于来自非常不同的主题域的数据集;(2)DBpedia Lookup和DBpedia Spotlight等工具可以轻松地将外部数据集链接到DBpedia。 然而,DBpedia可以被看作是关联数据网站的入口点,许多数据集链接到和来自DBpedia。 实际上,我们使用最初的DBpedia链接为每个实体检索YAGO和Wikidata的外部链接。 这些链接可用于系统评估不同LOD数据集的数据在不同学习任务中的相关性。

文件

本数据集部分详细统计如下:

相关论文

1.Ristoski, P., de Vries, G.K.D., Paulheim, H.: A collection of benchmark datasets for systematic evaluations of machine learning on the semantic web. In: International Semantic Web Conference (To Appear). Springer (2016)

文本相似性检测数据集

发表于 2018-06-23

提供者:卢梦依
下载地址:https://github.com/FerreroJeremy/Cross-Language-Dataset

简介

数据集概述

该数据集是用于跨语言文本相似性检测的多语言,多风格和多粒度数据集。这个数据集的特征如下:

  • 包含三种语言:法语,英语和西班牙语;
  • 提出了不同粒度的跨语言对齐信息:文档级,句级和块级;
  • 基于平行和可比较的语料库;
  • 包含人和机器翻译的文本;
  • 其中的一部分已经被修改(为了使跨语言相似性检测更复杂),而其余部分没有噪音;
  • 文件由多种类型的作者撰写:从一般人士到专业人士。

文件

本数据集部分详细统计如下:


相关论文

1.A Multilingual, Multi-Style and Multi-Granularity Dataset for Cross-Language Textual Similarity Detection. Jérémy Ferrero, Frédéric Agnès, Laurent Besacier and Didier Schwab. In the 10th edition of the Language Resources and Evaluation Conference (LREC 2016).
2.Philipp Koehn (2005). Europarl: A Parallel Corpus for Statistical Machine Translation. In Conference Proceedings: the tenth Machine Translation Summit, pages 79–86. AAMT.
3.Martin Potthast, Alberto Barrón-Cedeño, Benno Stein, and Paolo Rosso (2011). Cross-Language Plagiarism Detection.In Language Ressources and Evaluation, volume 45, pages 45–62.
4.Martin Potthast, Benno Stein, Alberto Barrón-Cedeño, and Paolo Rosso (2010). An Evaluation Framework for Plagiarism Detection. In Proceedings of the 23rd International Conference on Computational Linguistics (COLING 2010), Beijing, China, August 2010. Association for Computational Linguistics.

Free Music Archive (FMA)数据集

发表于 2018-06-22

提供者:杜成玉
下载地址:http://freemusicarchive.org/

简介

该数据集是免费音乐存档(FMA)的转储,这是一个高质量的合法音频下载的互动库。这些数据集中包含歌曲名称、音乐类型、曲目计数等信息,共计689种歌曲和68种类型。该数据集可用于音乐分析。
数据来源:https://zhuanlan.zhihu.com/p/35455475

下载链接

https://github.com/mdeff/fma

相关论文

1.Aljanaki A, Yang Y H, Soleymani M. Emotion in Music Task at MediaEval 2014[C]//MediaEval. 2014.
2.Soleymani M, Caro M N, Schmidt E M, et al. 1000 songs for emotional analysis of music[C]//Proceedings of the 2nd ACM international workshop on Crowdsourcing for multimedia. ACM, 2013: 1-6.
3.Soleymani M, Caro M N, Schmidt E M, et al. The MediaEval 2013 Brave New Task: Emotion in Music[C]//MediaEval. 2013.
4.Xianyu H, Li X, Chen W, et al. SVR based double-scale regression for dynamic emotion prediction in music[C]//Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016: 549-553.

AudioSet

发表于 2018-06-21

提供者:刘唯

简介

谷歌发布的大规模一品数据集,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2084320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以及常见的日常环境声音。

下载地址

https://github.com/audioset/ontology

Corel5K

发表于 2018-06-21

提供者:刘唯

简介

这是Corel5K图像集,共包含科雷尔(Corel)公司收集整理的5000幅图片,故名:Corel5K,可以用于科学图像实验:分类、检索等。Corel5k数据集是图像实验的事实标准数据集。请勿用于商业用途。私底下学习交流使用。Corel图像库涵盖多个主题,由若干个CD组成,每个CD包含100张大小相等的图像,可以转换成多种格式。每张CD代表一个语义主题,例如有公共汽车、恐龙、海滩等。Corel5k自从被提出用于图像标注实验后,已经成为图像实验的标准数据集,被广泛应用于标注算法性能的比较。Corel5k由50张CD组成,包含50个语义主题。
Corel5k图像库通常被分成三个部分:4000张图像作为训练集,500张图像作为验证集用来估计模型参数,其余500张作为测试集评价算法性能。使用验证集寻找到最优模型参数后4000张训练集和500张验证集混合起来组成新的训练集。

下载链接

https://github.com/watersink/Corel5K

相关论文

[1]Vafa Maihami,Farzin Yaghmaee. Automatic image annotation using community detection in neighbor images[J]. Physica A: Statistical Mechanics and its Applications,2018,507.
[2]Xue Li,Yu-Jin Zhang,Bin Shen,Bao-Di Liu. Low-rank image tag completion with dual reconstruction structure preserved[J]. Neurocomputing,2016,173.
[3]Ubai Sandouk,Ke Chen. Learning contextualized semantics from co-occurring terms via a Siamese architecture[J]. Neural Networks,2016,76.
[4]Xue Li,Yu-Jin Zhang,Bin Shen,Bao-Di Liu. Low-rank image tag completion with dual reconstruction structure preserved[J]. Neurocomputing,2016,173.

Caltech

发表于 2018-06-21

提供者:刘唯

简介

Caltech是加州理工学院的图像数据库,包含Caltech101和Caltech256两个数据集。该数据集是由Fei-FeiLi, Marco Andreetto, Marc ‘Aurelio Ranzato在2003年9月收集而成的。Caltech101包含101种类别的物体,每种类别大约40到800个图像,大部分的类别有大约50个图像。Caltech256包含256种类别的物体,大约30607张图像。

链接

http://www.vision.caltech.edu/Image_Datasets/Caltech101/

相关论文

[1]南仁东.使用CALTECH与AIPS进行VLBI数据处理的比较[J].Chinese Journal of Astronomy and Astrophysics,1989(03):277-285.
[2]H. Jane Ding,Catherine M. Oikonomou,Grant J. Jensen. The Caltech Tomography Database and Automatic Processing Pipeline[J]. Journal of Structural Biology,2015,192(2).

Question Pairs

发表于 2018-06-16

提供者:杜成玉

简介

第一个来源于Quora 的包含重复/语义相似性标签的数据集。数据集由超过40万行的潜在问题的问答组成。每行数据包含问题ID、问题全文以及指示该行是否真正包含重复对的二进制值。

下载地址

https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

相关论文

[1]Jacqueline Léon. Preference and “bias” in the format of French news interviews: the semantic analysis of question–answer pairs in conversation[J]. Journal of Pragmatics,2004,36(10).
[2]王宝勋. 面向网络社区问答对的语义挖掘研究[D].哈尔滨工业大学,2013.
[3]王君泽. 基于大规模问答语料的问题检索系统[D].华中科技大学,2010.
[4]孙林. 基于在线论坛的问答对识别研究与问答系统实现[D].哈尔滨工业大学,2010.
[5]梁维薇,吕立辉,冉蜀阳.基于特定领域的自动问题-答案对的形成[J].现代计算机(专业版),2012(36):7-11.

牛津RobotCar视频数据集

发表于 2018-06-16

提供者:杜成玉

简介

RobotCar数据集包含时间范围超过1年,测试超过100次的相同路线的驾驶数据。数据集采集了天气、交通、行人、建筑和道路施工等不同组合的数据。

下载地址

http://robotcar-dataset.robots.ox.ac.uk/

1234…22

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4