Vdacity开源的车辆行驶视频

发表于 2018-06-16

提供者：杜成玉

简介

数据集大概有223G，主要是有关车辆驾驶的数据，其中除了车辆拍摄的图像以外，还包括车辆本身的属性和参数信息，例如经纬度、制动器、油门、转向度、转速等。这些数据可用于车辆自动驾驶方向的模型训练和学习。

下载地址

https://github.com/udacity/self-driving-car

KONECT网络数据集

发表于 2018-06-16

提供者：杜成玉

简介

KONECT数据集是一个大型网络数据集的项目，在科布伦茨-兰道大学网络科学与技术研究所的网络科学和相关领域进行研究。KONECT包含数百种各种类型的网络数据集，包括有向、无向、二分、加权、未加权、签名和评级的网络。 KONECT的网络覆盖了许多不同领域，如社交网络，超链接网络、作者网络、物理网络、交互网络和通信网络等。

下载地址

http://konect.uni-koblenz.de/

斯坦福网络数据集

发表于 2018-06-16

提供者：刘唯

简介

斯坦福网络分析平台（SNAP）是一种用于分析和操纵大型网络的通用高性能系统，其本身使用的网络相关数据也对外开放，包括设计、社区、通信、网络图、互联网、道路、维基百度网络、在线社区和评论等不同主题，可用于分析大型社会和信息网络方面的研究成果。

下载地址

http://snap.stanford.edu/data/index.html

雅虎Webscope

发表于 2018-06-16

提供者：刘唯

简介

雅虎Webscope用于为学者和其他科学家在非商业用途中使用。所有数据集已经过审查，以符合雅虎的数据保护标准，包括严格的隐私控制。数据集中包含了多个主题数据集：广告和市场营销、自然语言数据、科学数据、图形和社会化数据、图像数据等7个主题。需要注意的是：数据集只适用于同意数据共享协议的教师和大学研究人员的在学术上使用。

下载地址

https://webscope.sandbox.yahoo.com/?guccounter=1

AWS

发表于 2018-06-16

提供者：刘唯

简介

亚马逊提供的数据集涵盖气候、红外图像、卫星遥感、人类微生物、日本人口普查、公共电子邮件档案、歌曲、材料安全、谷歌图书语料库、石油等非常多的主题数据，并且这些数据可直接集成到AWS进行数据挖掘和学习。

下载地址

https://registry.opendata.aws/

UCI KDD

发表于 2018-06-16

提供者：刘唯

简介

UCI KDD（知识发现）是数据挖掘和可视化的研究项目，专注于大型数据收集中的实体事件关系。它是涉及几所大学的更广泛的KDD项目的一部分，UCI始于2002年10月。

下载地址

http://kdd.ics.uci.edu/databases/

Crowd Counting 高密度人群图像数据集

发表于 2018-06-16

提供者：刘晓

地址：http://crcv.ucf.edu/data/crowd_counting.php

简介

Crowd Counting Dataset 是一个高密度人群图像数据，图片来自 FLICKR 网站。

数据下载

clicking here

Reuters Corpora 英文新闻数据

发表于 2018-06-16

提供者：刘晓

地址：http://trec.nist.gov/data/reuters/reuters.html

简介

在2000年，路透社有限公司提供了大量路透社新闻报道，用于研究和开发自然语言处理，信息检索和机器学习系统。这个被称为“路透社语录1”或RCV1的语料库显着大于在文本分类社区中大量使用的旧版着名的路透社21578集合。在2004年秋季，NIST接管了RCV1和任何未来路透社的发行。

Reuters Corpora (RCV1, RCV2, TRC2) 是一个英文新闻语料数据，包括大量的英文新闻及分类标注。

数据集内容

RCV1: 路透社语料库，第1卷，英语，1996-08-20至1997-08-19（发布日期2000-11-03，格式版本1，更正等级0）这是通过网络下载分发，包含约810,000路透社，英语新闻故事。它需要约2.5 GB的存储未压缩的文件。

RCV2: Reuters Corpus，第2卷，多语种语料库，1996-08-20至1997-08-19（发布日期2005-05-31，格式版本1，更正等级0）这是通过网络下载发布的，包含超过487,000条路线以13种语言（荷兰语，法语，德语，中文，日语，俄语，葡萄牙语，西班牙语，拉丁美洲西班牙语，意大利语，丹麦语，挪威语和瑞典语）的新闻报道。故事不是平行的，而是由当地记者用各种语言编写的。这些故事与RCV1同时出现，但有些语言并不涵盖整个时间段。

TRC2: TRC2 汤森路透文本研究集（TRC2） TRC2语料库包含1800,370个新闻报道，涵盖2008-01-01 00:00:03至2009-02-28 23:54:14或2,871,075,221字节的时间段，最初提供给2009年博客跟踪的参与者文本检索会议（TREC），以补充BLOGS08语料库（包含在格拉斯哥大学进行的大型博客搜索结果）。 TRC2通过网络下载进行分发。

NIST Supplemental Fingerprint Card Data (SFCD)指纹识别数据

发表于 2018-06-16

提供者：刘晓

地址：https://www.nist.gov/property-fieldsection/nist-special-database-10

简介

NIST Supplemental Fingerprint Card Data (SFCD) 是一个指纹识别数据，包括522个人的5520张指纹图像，图像分辨率为832x768，由美国标准技术研究院发布（NIST）。

文件类型

zip压缩包

文件大小

2.41 Gb

#相关论文
[1]. CI Watson. NIST Special Database 14. NIST Mated Fingerprint Card pairs 2 (MFCP2).
[2]. K Uchida ， T Kamei ， M Mizoguchi ， T Temma.Fingerprint card classification with statistical feature integration. 1998.

INRIA Person Dataset 原始数据

发表于 2018-06-16

提供者：刘晓

地址：http://pascal.inrialpes.fr/data/human/

简介

INRIA Person 数据集用来对图像和视频中的直立行人进行检测。该数据集包含两类格式的数据，第一类为原始图像和相应的直立行人标注。第二类为标准化为 64x128 像素的直立性人正类和对应图片的负类图像

数据集内容

数据集包含来自几个不同来源的图像：
来自GRAZ 01数据集的图像，尽管注释文件是全新的。
来自长时间拍摄的个人数字图像集的图像。通常原始正像的分辨率非常高（约2592x1944像素），所以我们裁剪这些图像以突出显示人物。很多人都是旁观者从这些输入照片的背景拍摄的，所以理想的是他们的姿势没有特别的偏见。
使用谷歌图像从网络上拍摄的图像很少。

注意：

每张图片上只标出身高> 100的正直人物。
注释可能不正确;特别是有时候注释边界框的部分可以在对象外部或内部

原始图像（Original Images）

文件夹’train’和’test’分别对应于原始训练和测试图像。两个文件夹都有三个子文件夹：（a）’pos’（正面训练或测试图像），（b）’neg’（负面训练或测试图像）和（c）’注释’（帕斯卡挑战格式）。

标准化图像（Normalized Images）

文件夹’train_64x128_H96’和’test_64x128_H96’对应于上述参考文献中使用的规范化数据集。两个文件夹都有两个子文件夹：（a）’pos’（标准化的正面训练或以左右反射为中心的测试图像），（b）’neg’（包含原始负面训练或测试图像）。文件夹’train / pos’中的图像大小为96x160像素（每边各有16像素的边距），文件夹’test / pos’中的图像大小为70x134像素（每边3像素）。这样做是为了避免边界条件（从而避免分类器中的任何特定偏差）。在这两个文件夹中，使用居中的64x128像素窗口进行原始检测任务。

负窗口（Negative windows）

为了从归一化图像生成否定训练窗口，从1218个负训练照片中随机采样固定的12180个窗口（每个负图像10个窗口），提供初始负训练集。对于每个检测器和参数组合，初步检测器被训练，所有负面训练图像被彻底地搜索（在尺度空间金字塔上）以获得误报（“硬件例子”）。所有得分大于零的例子都被认为是很难的例子。然后使用该增强集（初始12180 +硬示例）重新训练该方法以产生最终检测器。如果有必要，将这组硬副本进行二次采样，以便最终训练集的描述符适合支持SVM训练的1.7 GB RAM。

上面的比例空间金字塔中的开始比例是1，我们不断在金字塔中添加一个级别直到floor（ImageWidth / Scale）> 64和floor（ImageHeight / Scale）> 128。金字塔中两个连续水平之间的比例为1.2。任何尺度的窗口步幅（两个连续窗口之间的采样距离）为8个像素。如果在将所有窗口放在一个比例级别上后，边界仍有一些余量，我们将余量除以2，取其底部并移动整个窗口网格。例如，如果当前级别的图像大小为（75,130），剩余的余量（步幅为8，窗口大小为64,128）为（3,2）。我们将所有窗口移动（楼层（MarginX / 2），楼层（MarginY / 2））。使用以下公式计算新图像宽度和高度：NewWidth = floor（OrigWidth / Scale）和NewHeight = floor（OrigHeight / Scale）。这里scale = 1意味着原始图像的大小。

在测试负面图像时，为了创建负窗口，我们使用相同的采样结构

数据大小及下载

数据下载地址：ftp://ftp.inrialpes.fr/pub/lear/douze/data/INRIAPerson.tar （970MB）。为避免复制图像，使用符号链接引用’train_64x128_H96’和’test_64x128_H96’中的’neg’图像文件夹。