(街头)时尚服饰数据集

发表于 2018-06-23

提供者：卢梦依
下载地址：http://www.msmarco.org/dataset.aspx

简介

数据集概述

CCP数据集来自“通过联合图像分割和标签分析服装”（CVPR 2014）。服装共解析（CCP）数据集是一个新的服装数据库，包括精心注释的服装项。

2098高分辨率的街头时尚照片共有59个标签
广泛的风格，配件，服装和姿势
所有图像都带有图像级注释
1000多个图像都带有像素级注释

文件

根目录包含以下文件和文件夹：

照片/ - 原始照片的目录
注释/ - 注释目录
像素级/ - 像素级注释（1004个文件）
图像级/图像级注释（1094个文件）
show_pixel_anno.m - 使用像素级注释的演示代码
show_image_anno.m - 使用图像级注释的演示代码
label_list.mat - [1 * 59]单元格数组，将标签号码映射到标签名称
samples.jpg - 样本注释
README.md - 概述文件

1950年以来NBA球员状态&表现数据集

发表于 2018-06-23

提供者：卢梦依
下载地址：https://www.kaggle.com/drgilermo/nba-players-stats/data

简介

数据集概述

数据集包含67个NBA赛季的总体个人统计数据。从分数，助攻，篮板等基本分数得分属性到更高级的像球员替换值这样的球类功能。

数据来自Basketball-reference在他们的术语表中查看详细的栏目描述术语表.

基于语义Web机器学习系统评估的基准数据集

发表于 2018-06-23

提供者：卢梦依
下载地址：http://data.dws.informatik.uni-mannheim.de/rmlod/LOD_ML_Datasets/

简介

数据集概述

近年来，已经提出了几种在语义网上进行机器学习的方法。但是，这些方法之间没有广泛的比较，特别是由于缺乏公开可用的公认基准数据集。在这里，我们提供了来自现有语义Web数据集以及与链接开放数据云中的数据集相关的外部分类和回归问题的不同大小的22个基准数据集的集合。这样的数据集合可以用来进行定量性能测试和方法的系统比较，由于数据集的数量，这也可以确定研究结果的统计显着性。

我们的数据集合包括22个数据集，分为三类：

机器学习实验中常用的现有数据集
由官方观察产生的数据集
数据集从现有的RDF数据集生成。

前两个类别中的每个数据集最初都链接到DBpedia。这主要有两个原因：（1）DBpedia是跨域知识库，可用于来自非常不同的主题域的数据集;（2）DBpedia Lookup和DBpedia Spotlight等工具可以轻松地将外部数据集链接到DBpedia。然而，DBpedia可以被看作是关联数据网站的入口点，许多数据集链接到和来自DBpedia。实际上，我们使用最初的DBpedia链接为每个实体检索YAGO和Wikidata的外部链接。这些链接可用于系统评估不同LOD数据集的数据在不同学习任务中的相关性。

文件

本数据集部分详细统计如下：

文本相似性检测数据集

发表于 2018-06-23

提供者：卢梦依
下载地址：https://github.com/FerreroJeremy/Cross-Language-Dataset

简介

数据集概述

该数据集是用于跨语言文本相似性检测的多语言，多风格和多粒度数据集。这个数据集的特征如下：

包含三种语言：法语，英语和西班牙语;
提出了不同粒度的跨语言对齐信息：文档级，句级和块级;
基于平行和可比较的语料库;
包含人和机器翻译的文本;
其中的一部分已经被修改（为了使跨语言相似性检测更复杂），而其余部分没有噪音;
文件由多种类型的作者撰写：从一般人士到专业人士。

文件

本数据集部分详细统计如下：

Free Music Archive (FMA)数据集

发表于 2018-06-22

提供者：杜成玉
下载地址：http://freemusicarchive.org/

简介

该数据集是免费音乐存档（FMA）的转储，这是一个高质量的合法音频下载的互动库。这些数据集中包含歌曲名称、音乐类型、曲目计数等信息，共计689种歌曲和68种类型。该数据集可用于音乐分析。
数据来源：https://zhuanlan.zhihu.com/p/35455475

下载链接

https://github.com/mdeff/fma

AudioSet

发表于 2018-06-21

提供者：刘唯

简介

谷歌发布的大规模一品数据集，AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2084320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图，覆盖广泛的人类和动物声音，乐器和风格以及常见的日常环境声音。

下载地址

https://github.com/audioset/ontology

Corel5K

发表于 2018-06-21

提供者：刘唯

简介

这是Corel5K图像集，共包含科雷尔（Corel）公司收集整理的5000幅图片，故名：Corel5K，可以用于科学图像实验：分类、检索等。Corel5k数据集是图像实验的事实标准数据集。请勿用于商业用途。私底下学习交流使用。Corel图像库涵盖多个主题，由若干个CD组成，每个CD包含100张大小相等的图像，可以转换成多种格式。每张CD代表一个语义主题，例如有公共汽车、恐龙、海滩等。Corel5k自从被提出用于图像标注实验后，已经成为图像实验的标准数据集，被广泛应用于标注算法性能的比较。Corel5k由50张CD组成，包含50个语义主题。
Corel5k图像库通常被分成三个部分：4000张图像作为训练集，500张图像作为验证集用来估计模型参数，其余500张作为测试集评价算法性能。使用验证集寻找到最优模型参数后4000张训练集和500张验证集混合起来组成新的训练集。

下载链接

https://github.com/watersink/Corel5K

Caltech

发表于 2018-06-21

提供者：刘唯

简介

Caltech是加州理工学院的图像数据库，包含Caltech101和Caltech256两个数据集。该数据集是由Fei-FeiLi, Marco Andreetto, Marc ‘Aurelio Ranzato在2003年9月收集而成的。Caltech101包含101种类别的物体，每种类别大约40到800个图像，大部分的类别有大约50个图像。Caltech256包含256种类别的物体，大约30607张图像。

链接

http://www.vision.caltech.edu/Image_Datasets/Caltech101/

Question Pairs

发表于 2018-06-16

提供者：杜成玉

简介

第一个来源于Quora 的包含重复/语义相似性标签的数据集。数据集由超过40万行的潜在问题的问答组成。每行数据包含问题ID、问题全文以及指示该行是否真正包含重复对的二进制值。

下载地址

https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

牛津RobotCar视频数据集

发表于 2018-06-16

提供者：杜成玉

简介

RobotCar数据集包含时间范围超过1年，测试超过100次的相同路线的驾驶数据。数据集采集了天气、交通、行人、建筑和道路施工等不同组合的数据。

下载地址

http://robotcar-dataset.robots.ox.ac.uk/

简介

数据集概述

文件

相关论文

简介

数据集概述

相关论文

简介

数据集概述

文件

相关论文

简介

数据集概述

文件

相关论文

简介

下载链接

相关论文

简介

下载地址

简介

下载链接

相关论文

简介

链接

相关论文

简介

下载地址

相关论文

简介

下载地址