提供者:刘晓
下载地址:http://cs.nyu.edu/~ylclab/data/norb-v1.0/
简介
NORB 是 3D 物体图像识别数据集。从不同的角度对 5 大类别(四条腿的动物、人像、飞机、卡车、小汽车)中的 50 个玩具模型进行图像拍摄。拍摄采用了 2 个照相机,6 种不同的光照条件,9 个特定的拍摄角度, 18 个仰角。 训练集合中包括每个类别的 5 个实例,余下 5 个实例为测试集。该数据库用于研究目的。它不能被出售。
数据集内容
文件便于下载已被处理成压缩。在未压缩之后,它们是一个简单的二进制矩阵格式,带有文件后缀“.mat”。文件格式将在后面的部分中解释。“-dat”文件存储图像序列。“-cat”文件存储图像的相应类别。每个“-dat”文件存储了29,160个图像对(6个类别,5个实例,6个lightings, 9个特定的拍摄角度,18个方位角)。第6类是没有对象的图像,可以用来训练系统拒绝图像,因为这5个对象类别都没有。每个对应的“-cat”文件包含29,160个类别标签(动物为0,人为1,飞机为2,卡车为3,汽车为4,空白为5)。
每个“-info”文件存储了29,160个10维向量,其中包含了关于相应图像的额外信息。向量的前四个元素是:
- 类别中的实例(0到9)
- 高程(0到8,意味着摄像机分别为30、35、40、45、50、55、60、65、70度)
- 3。方位角(0、2、4,……,34,乘以10,得到角度的方位角)
- 4。照明条件(0至5)
接下来的6个元素描述了在一个杂乱的背景上叠加在物体上的微扰。
文件格式
这些文件存储在所谓的“二进制矩阵”文件格式中,这是一种简单的矢量格式和各种元素类型的多维矩阵。二进制矩阵文件首先是一个文件头,它描述了矩阵的类型和大小,然后是矩阵的二进制图像。
注意,当矩阵小于3维时,比如说,它是一维向量,然后是dim[1]和dim[2]都是1。当矩阵有超过3个维度时,标题将被进一步的尺寸信息。否则,在文件头出现后,将在最后一个维度中以索引存储的矩阵数据变化最快。
这是一张 “norb-5x46789x9x18x6x2x108x108-training-10-dat.mat”文件中前30张图片的截图。,按顺序排列,从左到右(列主要)。下面的标题显示了相应的 “-cat.mat” 和 “-info.mat” 的内容。它们是”category / instance / elevation / azimuth / lighting”。对于背景图像,后面的4个数字都是-1。
相关论文
[1] Y. LeCun, F.J. Huang, L. Bottou, Learning Methods for Generic Object Recognition with Invariance to Pose and Lighting. CVPR 2004