CoPhIR 数据集

提供者:刘晓
地址:http://cophir.isti.cnr.it/whatis.html

简介

雅虎发布的超大Flickr数据集,包含1亿多张图片。
CoPhIR(Content-based Photo Image Retrieval,基于内容的照片图像检索)测试集合的开发旨在对SAPIR项目基础设施(SAPIR:使用对等IR中的音频视频内容进行搜索)的可扩展性进行重要测试以进行相似性搜索。 CoPhIR是NMIS实验室与意大利比萨ISTI-CNR的HPC实验室共同努力的成果。 我们通过DILIGENT项目使用EGEE European GRID从Flickr存档提取元数据。 对于每个图像,已经提取了标准的MPEG-7图像特征。试验台的每个入口都包含:

  • 链接Flickr网站的相应条目
  • 照片图像缩略图
  • 一个XML结构,在相应的Flickr条目中包含Flickr用户信息:标题,位置,GPS,标签,注释等。
  • 具有5个提取的标准MPEG-7图像特征的XML结构:

    • 可伸缩的色彩
    • 色彩结构
    • 色彩布局
    • 边缘直方图
    • 均匀纹理

迄今收集的数据代表世界上最大的多媒体元数据收集,可用于可扩展相似性搜索技术的研究。 CoPhIR包含1.06亿个处理过的图像。

CoPhIR现在可供研究人员尝试比较不同的索引技术进行相似性搜索,其中可扩展性是关键问题。

我们使用Flickr图片内容符合Creative Commons许可。 CoPhIR测试集合符合基于WIPO(世界知识产权组织)版权条约和表演和录音制品条约以及意大利现行法律68/2003的欧洲第29/2001号建议书。
为了访问CoPhIR发行版,有兴趣在其上进行实验的组织(大学,研究实验室等)将必须签署随附的CoPhIR访问协议和CoPhIR访问注册表,将原始签名文件通过邮件发送给我们。请按照“如何获得CoPhIR测试集合”一节中的说明进行操作。然后,您将收到登录和密码以下载所需的文件。

使用–获得CoPhIR测试集

  • 发送电子邮件到 cophiristi.cnr.it (subject: new access to Cophir),包含有必要信息的请求(见请求模板)。
  • 打印CoPhIR Access Agreement和CoPhIR Access Registration Form (doc, pdf),填写所需信息,然后由授权人签署正本文件。
  • 将两份文件邮寄至

Dr. Fausto Rabitti
NMIS Lab.
ISTI-CNR, Pisa Research Area
Via Moruzzi, 1
56124 Pisa (Italy).

  • 我们将发送到您的电子邮件地址,在访问注册表中显示,一封包含登录名和密码的电子邮件将用于访问CoPhIR测试集合。

  • 要下载CoPhIR测试集合的文件,请在CoPhIR网站上输入下载部分并使用您的登录名和密码。

相关论文

[1] F Rabitti, R Perego,F Falchi,C Lucchese, P Bolettieri, CoPhIR (Content-based Photo Image Retrieval) Test-Collection, 2008
[2] M Batko,P Kohoutkova,D Novak, CoPhIR Image Collection under the Microscope, 2009