提供者:杜成玉
简介
数据集大概有223G,主要是有关车辆驾驶的数据,其中除了车辆拍摄的图像以外,还包括车辆本身的属性和参数信息,例如经纬度、制动器、油门、转向度、转速等。这些数据可用于车辆自动驾驶方向的模型训练和学习。
提供者:刘唯
雅虎Webscope用于为学者和其他科学家在非商业用途中使用。所有数据集已经过审查,以符合雅虎的数据保护标准,包括严格的隐私控制。数据集中包含了多个主题数据集:广告和市场营销、自然语言数据、科学数据、图形和社会化数据、图像数据等7个主题。需要注意的是:数据集只适用于同意数据共享协议的教师和大学研究人员的在学术上使用。
https://webscope.sandbox.yahoo.com/?guccounter=1
[1]杨飞,党宁宁,肖炳甲.WebScope: A New Tool for Fusion Data Analysis and Visualization[J].Plasma Science and Technology,2010,12(02):253-256.
[2]Wei Zheng,Kuanhong Wan,Zhi Chen,Feiran Hu,Qiang Liu. J-TEXT WebScope: An efficient data access and visualization system for long pulse fusion experiment[J]. Fusion Engineering and Design,2016,112.
提供者:刘唯
亚马逊提供的数据集涵盖气候、红外图像、卫星遥感、人类微生物、日本人口普查、公共电子邮件档案、歌曲、材料安全、谷歌图书语料库、石油等非常多的主题数据,并且这些数据可直接集成到AWS进行数据挖掘和学习。
https://registry.opendata.aws/
[1]马晓亭,陈臣.基于亚马逊AWS云服务的数字图书馆云计算基础设施构建[J].情报科学,2013,31(01):46-51.
[2]铁兵.亚马逊AWS云计算服务浅析[J].广东通信技术,2016,36(10):35-38.
[3]刘义颖.Amazon Web Services(AWS)云平台可靠性技术研究[J].电脑知识与技术,2014,10(33):8030-8031+8033.
[4]杜忠岩,张伟强,鲁华伟.亚马逊AWS云服务分析[J].中国新通信,2015,17(17):106-108.
提供者:刘唯
UCI KDD(知识发现)是数据挖掘和可视化的研究项目,专注于大型数据收集中的实体事件关系。它是涉及几所大学的更广泛的KDD项目的一部分,UCI始于2002年10月。
http://kdd.ics.uci.edu/databases/
[1]Aizhong Mi. Experimental Comparison of Six Fixed Classifier Fusion Rules[A]. Intelligent Information Technology Application Association.Proceedings of the 2011 International Conference on Power Electronics and Engineering Application(PEEA 2011)[C].Intelligent Information Technology Application Association:,2011:5.
[2].Efficient Multi-Resolution Compression Algorithm for Disk-Based Backup and Recovery[J].Wuhan University Journal of Natural Sciences,2006(06):1951-1954.
提供者:刘晓
地址:http://crcv.ucf.edu/data/crowd_counting.php
Crowd Counting Dataset 是一个高密度人群图像数据,图片来自 FLICKR 网站。
[1]. Haroon Idrees, Imran Saleemi, Cody Seibert, Mubarak Shah, Multi-Source Multi-Scale Counting in Extremely Dense Crowd Images, IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), 2013.
提供者:刘晓
地址:http://trec.nist.gov/data/reuters/reuters.html
在2000年,路透社有限公司提供了大量路透社新闻报道,用于研究和开发自然语言处理,信息检索和机器学习系统。这个被称为“路透社语录1”或RCV1的语料库显着大于在文本分类社区中大量使用的旧版着名的路透社21578集合。 在2004年秋季,NIST接管了RCV1和任何未来路透社的发行。
Reuters Corpora (RCV1, RCV2, TRC2) 是一个英文新闻语料数据,包括大量的英文新闻及分类标注。
RCV1: 路透社语料库,第1卷,英语,1996-08-20至1997-08-19(发布日期2000-11-03,格式版本1,更正等级0) 这是通过网络下载分发,包含约810,000路透社,英语新闻故事。它需要约2.5 GB的存储未压缩的文件。
RCV2: Reuters Corpus,第2卷,多语种语料库,1996-08-20至1997-08-19(发布日期2005-05-31,格式版本1,更正等级0) 这是通过网络下载发布的,包含超过487,000条路线以13种语言(荷兰语,法语,德语,中文,日语,俄语,葡萄牙语,西班牙语,拉丁美洲西班牙语,意大利语,丹麦语,挪威语和瑞典语)的新闻报道。故事不是平行的,而是由当地记者用各种语言编写的。这些故事与RCV1同时出现,但有些语言并不涵盖整个时间段。
TRC2: TRC2 汤森路透文本研究集(TRC2) TRC2语料库包含1800,370个新闻报道,涵盖2008-01-01 00:00:03至2009-02-28 23:54:14或2,871,075,221字节的时间段,最初提供给2009年博客跟踪的参与者文本检索会议(TREC),以补充BLOGS08语料库(包含在格拉斯哥大学进行的大型博客搜索结果)。 TRC2通过网络下载进行分发。
[1]. Lewis, D. D.; Yang, Y.; Rose, T.; and Li, F. RCV1: A New Benchmark Collection for Text Categorization Research. Journal of Machine Learning Research, 5:361-397, 2004.
提供者:刘晓
地址:https://www.nist.gov/property-fieldsection/nist-special-database-10
NIST Supplemental Fingerprint Card Data (SFCD) 是一个指纹识别数据,包括522个人的5520张指纹图像,图像分辨率为832x768,由美国标准技术研究院发布(NIST)。
zip压缩包
2.41 Gb
#相关论文
[1]. CI Watson. NIST Special Database 14. NIST Mated Fingerprint Card pairs 2 (MFCP2).
[2]. K Uchida , T Kamei , M Mizoguchi , T Temma.Fingerprint card classification with statistical feature integration. 1998.
提供者:刘晓
地址:http://pascal.inrialpes.fr/data/human/
INRIA Person 数据集用来对图像和视频中的直立行人进行检测。该数据集包含两类格式的数据,第一类为原始图像和相应的直立行人标注。第二类为标准化为 64x128 像素的直立性人正类和对应图片的负类图像
注意:
文件夹’train’和’test’分别对应于原始训练和测试图像。两个文件夹都有三个子文件夹:(a)’pos’(正面训练或测试图像),(b)’neg’(负面训练或测试图像)和(c)’注释’(帕斯卡挑战格式)。
文件夹’train_64x128_H96’和’test_64x128_H96’对应于上述参考文献中使用的规范化数据集。两个文件夹都有两个子文件夹:(a)’pos’(标准化的正面训练或以左右反射为中心的测试图像),(b)’neg’(包含原始负面训练或测试图像)。文件夹’train / pos’中的图像大小为96x160像素(每边各有16像素的边距),文件夹’test / pos’中的图像大小为70x134像素(每边3像素)。这样做是为了避免边界条件(从而避免分类器中的任何特定偏差)。在这两个文件夹中,使用居中的64x128像素窗口进行原始检测任务。
为了从归一化图像生成否定训练窗口,从1218个负训练照片中随机采样固定的12180个窗口(每个负图像10个窗口),提供初始负训练集。对于每个检测器和参数组合,初步检测器被训练,所有负面训练图像被彻底地搜索(在尺度空间金字塔上)以获得误报(“硬件例子”)。所有得分大于零的例子都被认为是很难的例子。然后使用该增强集(初始12180 +硬示例)重新训练该方法以产生最终检测器。如果有必要,将这组硬副本进行二次采样,以便最终训练集的描述符适合支持SVM训练的1.7 GB RAM。
上面的比例空间金字塔中的开始比例是1,我们不断在金字塔中添加一个级别直到floor(ImageWidth / Scale)> 64和floor(ImageHeight / Scale)> 128。金字塔中两个连续水平之间的比例为1.2。任何尺度的窗口步幅(两个连续窗口之间的采样距离)为8个像素。如果在将所有窗口放在一个比例级别上后,边界仍有一些余量,我们将余量除以2,取其底部并移动整个窗口网格。例如,如果当前级别的图像大小为(75,130),剩余的余量(步幅为8,窗口大小为64,128)为(3,2)。我们将所有窗口移动(楼层(MarginX / 2),楼层(MarginY / 2))。使用以下公式计算新图像宽度和高度:NewWidth = floor(OrigWidth / Scale)和NewHeight = floor(OrigHeight / Scale)。这里scale = 1意味着原始图像的大小。
在测试负面图像时,为了创建负窗口,我们使用相同的采样结构
数据下载地址:ftp://ftp.inrialpes.fr/pub/lear/douze/data/INRIAPerson.tar (970MB)。为避免复制图像,使用符号链接引用’train_64x128_H96’和’test_64x128_H96’中的’neg’图像文件夹。
[1]. M Taiana , JC Nascimento , A Bernardino. An Improved Labelling for the INRIA Person Data Set for Pedestrian Detection. 2013.