世界语言资源平台

  • 首页
  • 标签
  • 归档

Corel Image Features数据集

发表于 2018-06-24

提供者:刘晓

地址:http://kdd.ics.uci.edu/databases/CorelFeatures/CorelFeatures.html

简介

该数据集包含从Corel图像集合中提取的图像特征。基于颜色直方图,颜色直方图布局,颜色矩和共生纹理,提供了四组特征。

数据集描述

数据特征

原始图像集合是从Corel的http://corel.digitalriver.com/获得的。有来自各个类别的68,040张照片图像。以下是图片的示例(jpg缩略图):


从每幅图像中提取四组特征:

  • 颜色直方图
  • 颜色直方图布局
  • 色彩时刻
  • 共现纹理

颜色直方图:32维(8 x 4 = H x S)

  • HSV色彩空间分为32个子空间(32种颜色:8个H范围和4个S范围)。
  • 图像的ColorHistogram中每个维度的值是整个图像中每种颜色的密度。
  • 直方图交叉点(两个图像的ColorHistogram之间的重叠区域)可用于测量两个图像之间的相似度。

颜色直方图布局:32维(4 x 2 x 4 = H x S x子图像)

  • 每个图像被分成4个子图像(一个水平分割和一个垂直分割)。
  • 计算每个子图像的4x2颜色直方图。
  • 直方图交集可用于测量两幅图像之间的相似度。

色彩时刻:9个尺寸(3 x 3)

  • 这9个值是:
    • (HSV颜色空间中的H,S和V各一个) 意思,
    • 标准差
    • 偏度。
  • 两幅图像的色彩矩之间的欧几里得距离可以用来表示两幅图像之间的不相似性(距离)。

共生纹理:16维(4 x 4)

  • 图像被转换成16个灰度图像。
  • 计算4个方向上的共同出现(水平,垂直和两个对角线方向)。这16个值是:(每个方向一个)

    • 第二个角度
    • 对比
    • 差矩
    • 熵
  • 两幅图像的ColorMoments之间的欧几里得距离可用于测量两幅图像之间的不相似性(距离)。

数据格式

每组功能都存储在一个单独的文件中。对于每个文件,一条线对应于一个图像。一行中的第一个值是图像ID,随后的值是图像的特征向量(例如颜色直方图等)。所有文件中相同的图像具有相同的ID,但图像ID与图像文件名不同。

数据集下载

  • ColorHistogram.asc.gz (4.9M; 20.0M uncompressed)
  • LayoutHistogram.asc.gz (5.0M; 20.0M uncompressed)
  • ColorMoments.asc.gz (2.6M; 6.2M uncompressed)
  • CoocTexture.asc.gz (4.6M; 10.8M uncompressed)

相关论文

[1] Michael Ortega, Yong Rui, Kaushik Chakrabarti, Kriengkrai Porkaew, Sharad Mehrotra, and Thomas S. Huang, Supporting Ranked Boolean Similarity Queries in MARS, IEEE Transaction on Knowledge and Data Engineering, Vol. 10, No. 6, Pages 905-925, December 1998.
[2] Kaushik Chakrabarti, and Sharad Mehrotra, The Hybrid Tree: An Index Structure for High Dimensional Feature Spaces, 1999 IEEE International Conference on Data Engineering (ICDE), Pages 440-447, February, 1999.
[3] Kriengkrai Porkaew, Kaushik Chakrabarti, and Sharad Mehrotra, Query Refinement for Multimedia Retrieval and its Evaluation Techniques in MARS, 1999 ACM International Multimedia Conference, Orlando, Florida, Oct 30 - Nov 4, 1999.
[4] Kaushik Chakrabarti, Kriengkrai Porkaew, and Sharad Mehrotra, Efficient Query Refinement in Multimedia Databases, Submitted for publication,

KDD Cup 1998 Data数据集

发表于 2018-06-24

提供者:刘晓

地址:http://kdd.ics.uci.edu/databases/kddcup98/kddcup98.html

简介

这是用于第二届国际知识发现和数据挖掘工具竞赛的数据集,该竞赛是与KDD-98第四届知识发现和数据挖掘国际会议共同举办的。竞争任务是一个回归问题,其目标是估计直接邮寄的回报以最大化捐赠利润。

使用说明

KDD-CUP-98数据集和随附的文件现在可用于一般用途,但有以下限制:

  • 数据的使用者必须通知Ismail Parsa(iparsa@epsilon.com)和Ken Howes(khowes@epsilon.com),以便他们从数据中生成结果,图表或表格等,并发送包含摘要的注释的最终结果。
  • 使用KDD-Cup-98数据集的已发表和/或未发表文章的作者还必须通知上述个人,并发送其已发表和/或未发表的作品的副本。
  • 如果您打算将此数据集用于培训或教育目的,您不得向学员或学生透露赞助商PVA(美国瘫痪退伍军人)的名称。你被允许说“一个国家退伍军人组织”…… 有关KDD杯的更多信息(包括参与者名单和结果),请访问KDD-Cup-98网页:http://www.epsilon.com/new。在那里,向下滚动到Data Mining Presentations,您将在其中找到KDD-Cup-98网页。

文件信息

  • readme. 该列表列出了FTP服务器中的文件及其内容
  • instruct.txt. 比赛的一般说明。
  • cup98doc.txt. 这个文件,是概述和指向关于比赛更详细的信息。
  • cup98dic.txt. 数据字典伴随分析数据集。
  • cup98que.txt. KDD-CUP问卷。参与者需要填写调查表并交出结果。
  • valtargt.readme. 介绍valtargt.txt文件。

数据集

  • cup98lrn.zip PKZIP压缩原始LEARNING数据集。(36.5M;未压缩117.2M)
  • cup98val.zip PKZIP压缩的原始VALIDATION数据集。 (36.8M;未压缩的117.9M)
  • cup98lrn.txt.Z UNIX COMPRESS原始学习数据集。 (36.6M;未压缩的117.2M)
  • cup98val.txt.Z UNIX COMPRESS原始验证数据集。 (36.9M;未压缩117.9M)
  • valtargt.txt 此文件包含已发送给KDD CUP 98参与者的验证数据集中的目标字段。 (1.1M)

相关论文

[1] M Tavallaee,E Bagheri,L Wei,AA Ghorbani. A detailed analysis of the KDD CUP 99 data set. 2009.
[2] NV Chawla,A Lazarevic,LO Hall, KW Bowyer. SMOTEBoost: Improving Prediction of the Minority Class in Boosting. 2003.
[3] Z Dou,R Song,JR Wen. A large-scale evaluation and analysis of personalized search strategies. 2007.

vatic图像标注工具

发表于 2018-06-24

提供者:杜成玉
下载地址:http://carlvondrick.com/vatic/

概述

数据来源:https://mp.weixin.qq.com/s?__biz=MzI1MzM4OTY3NA==&mid=2247483855&idx=1&sn=a647da18125bdea32ac5d712b28cb91b&chksm=e9d47fcadea3f6dc7b36c5ea44878ad1ba606b14060e5671f93dbbcfd69ee0ad636db507ec29&mpshare=1&scene=1&srcid=0323B8i2ByT5ubOt5bGbwnTF#rd
Vatic源自MIT的一个研究项目(Video Annotation Tool from Irvine, California)。输入一段视频,支持自动抽取成粒度合适的标注任务并在流程上支持接入亚马逊的众包平台Mechanical Turk。除此之外,其还有很多实用的特性:
1.简洁使用的GUI界面,支持多种快捷键操作
2.基于opencv的tracking,这样就可以抽样的标注,减少工作量
具体使用时,可以设定要标注的物体label,比如:水果,人,车,等等。然后指派任务给到众包平台(也可是自己的数据工程师)。现阶段支持的标注样式是框(box)。# 数据集特征

使用docker搭建Vatic

搭建vatic可以参照github上的说明。搭建过程对操作系统和软件的版本要求较严格。所以,我们使用docker来部署降低复用的难度。
一个参考的docker image
https://github.com/johndoherty/vatic
docker pull jldowns/vatic-docker
启动服务
docker run -v “$PWD/data”:/root/vatic/data \
jldowns/vatic-docker /root/vatic/start_and_block.sh –name myvatic

vatic使用

1.从视频抽取目标图片集合, 内部使用了ffmpeg
turkic extract /path/to/video.mp4 /path/to/output/directory
默认是720x480的目标分辨率,也可以添加–no-resize来保证原图的图片质量
2.将图片load到数据库
turkic load identifier /path/to/output/directory Label1 Label2 LabelN –blow-radius 0 –skip 5 –offline
设置标注的label,每5帧标注1帧,不覆盖周围的帧数据
3.发布任务
turkic publish –offline
4.dump 标注后的元数据
turkic dump identifier -o output.txt
支持xml,json等多种格式

dump标注后的图片数据

turkic visualize identifier $output_path –merge –renumber
cd $output_path
ffmpeg -i %d.jpg -vcodec mpeg4 output.avi
支持导出带标注box的图片集合,并可以通过ffmpeg合成为一段完成的演示视频

BRAT标注工具

发表于 2018-06-24

提供者:杜成玉
下载地址:http://brat.nlplab.org

概述

数据来源:https://www.cnblogs.com/alexanderkun/p/6936732.html
BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理。利用该工具可以方便的获得各项NLP任务需要的标注语料。以下是利用该工具进行命名实体识别任务的标注例子。
使用案例:http://blog.csdn.net/owengbs/article/details/49780225

使用教程

数据来源:http://blog.sina.com.cn/s/blog_4c9dc2a10102wy3f.html




汉字偏误标注的汉语连续性中介语语料库

发表于 2018-06-24

提供者:朱述承
下载地址:https://cilc.sysu.edu.cn/

简介

汉字偏误连续性中介语语料库是在中山大学国际汉语学院院长周小兵教授鼎力支持和率领下建设的,有汉字标注版和汉字语法标注版两个入口。使用该语料库,必须注册账号,填写自己真实信息,以便了解语料库使用者情况。注册后即可享有查看和搜索全部语料的权利,不注册以guest身份进入语料库只能搜索到和查看前20条语料。“字词句偏误标注版”做得较早,包含分词和词性标注预处理。偏误标注包括错别字、词汇、语法等各种偏误标注,大约44万字。各种标注符号见下文“标注符号说明”。 在现有语料较少,分布不均的客观条件下,本库采用“目标驱动、质稳量足”、“急用先建、循序渐进”的方针,先标注目前比较缺乏的,且很重要的汉字偏误,以后随着条件允许,会继续增加词汇和语法项目的标注。“汉字偏误标注版”就是在上述方针指导下诞生的。它是近几年做的只有错别字标注的语料,但也可供用户进行一般的词汇语言搜索,同时可以供大家对汉字偏误进行分析研究。尤其是“错字数据库”是该库一大重要特色。错字数据库中收集了语料库中的所有错字使用情况,可供大家查询、分析。“汉字标注版”截止2013年8月共有大约310万字,目前还在不断增加更新改善。 需要说明的是,因为分词和词性标注主要对有基础标注时的检索起作用,本语料库是偏误标注,分词和词性标注作用不大,况且分词和词性标注符号在标注时影响标注者视线,故在此版中取消。 本语料库收集的主要是中山大学国际汉语学院留学生日常作文和综合课的写话,语料涵盖初、中、高级阶段,但因为初级阶段的学生本身输出就少,收集困难度高,所以初级水平的语料偏少,中级较多,高级最多。

编码字段说明

每篇语料都有一个编码,比如,B1X-091110-11,“B1X”表示作者年级是“本一下”,中间的数字“091110”表示写作日期是2009年11月10号,最后的“11”是语料收集者对这篇语料的编号,表示2009年11月10号的第11篇作文。同时,表示年级的还有“B2S”,它代表“本二上”,“B2X”代表“本二下”,“B3S”代表“本三上”,“B3X”代表“本三下”,“B4S”代表“本四上”,“B4X”代表“本四下”,“G1”代表“高一”,“G2”代表“高二”,“Z1A”代表“中1A班”,“Z2B”代表“中2B班”,“Z3C”代表“中3C班”,“Z4”代表“中4班”,其中“A、B、C”代表同一个水平等级的平行班,这些符号和字段“年级”的内容相同,中间的日期“091110”也和字段“日期”的内容相同。 每篇语料都有一个编号,这是机器为每篇语料随机自动分配的编号,没有实际意义。
学生年级分别有:初1、初2、初3、初4、中1、中2、中3、中4、高1、高2、本2上(相当于中1、中2)、本2下(相当于中3、中4)、本3上(相当于高1)、本3下(相当于高2)、本4上(最高)。

检索说明

在检索页面,在相应的下拉菜单处点击自己要检索的国家、年级,也可以选择“全部”,实现全部检索。在“关键词”一栏输入要检索的语言项目,除了基本的字、词和字符串检索之外,这里还支持框式结构的检索,比如“除了..以外”、“是..的”、“让..满意”等中间有距离的两个关键词的检索,这两个关键词之间可以有意义联系,也可以没有意义联系。检索输入时,用空格分开关键词,比如:“除了 以外”,空格数量不影响检索结果。“关键词距离”一栏,表示用户希望这两个关键词之间是多大距离,比如,在“关键词”一栏输入“让 满意”,在“关键词距离”一栏输入“3”,结果会检索出“让”和“满意”之间有3个汉字以内的句子,如果输入“0”表示用户对关键词距离不作要求。“显示长度”表示希望检索结果显示的句子长度。“查找字段”一般选择的是“文章”或“标题”,表示在文章内容或标题中查找语言项目。

乡音苑

发表于 2018-06-24

提供者:朱述承
访问地址:http://phonemica.net/

简介

乡音苑是一个方言故事平台。故事录音由我们的网友志愿提供,他们录制、上传,并转录和编辑各种极具地方特色的方言内容:儿歌/童谣、个人经历、地方特色饮食、幽默故事、地方历史、民间故事、风俗习惯、等等等等,不一而足。

使用方法

用户可以按照语系在方言地图上查找相应的方言范围,一共分为汉语系、藏缅语系、壮侗语系和南岛语系四个语系区。也可以在地图上直接搜索相应的方言或者地理区域。也可以按照整理方式选择相应的方言语音。用户也可以自己上传方言语音。

Estonian Reference Corpus

发表于 2018-06-24

提供者:朱述承
下载地址:http://www.cl.ut.ee/korpused/segakorpus/slohtuleht/

内容

这个语料库包含:
Fiction from the year 1990 onwards (5,6 million words);
Daily Postimees (issues 27.11.1995-10.10.2000; 1760 issues containing 88 600 articles, 32.9 million words);
Weekly Eesti Ekspress (issues 09.08.1996-29.11.2001; 7.5 million words);
Daily Eesti Päevaleht (issues 18.10.1995-31.10.2007; (4,065 issues containing 366,862 articles); 87.9 million words);
Magazine Maaleht (2001-2004; 4.3 million words);
Magazine SL Õhtuleht (1997-2007; 45.5 million words);
Valgamaalane (02.09.2004-31.07.2008; 2.5 million word);
Lääne Elu (04.05.2000-01.11.2008; 1.8 million words);
Magazine Horisont (1996-2003; 260,000 words);
Magazine Luup (1996-2002; 1,9 million words);
Magazine Kroonika (2001-2003; 600,000 words);
Magazine Eesti Arst (2002-2004; ca 0,7 million words);
Magazine Arvutitehnika ja Andmetöötlus (1999-2005; 625,000 words);
Magazine Agraarteadus (2001-2006; 298,000 words);
Various cientific articles (ca 1.3 million words);
Estonian and European legal documents (ca 1.8 million and 10 million words);
New media (ca 21 million words);
Parliament transcripts 1995-2001 (13 million words);
PhD dissertations (2.3 million words).

使用方法

该语料库可免费用于非商业用途。人们可以:
下载压缩文本;
使用Keeleveeb的语料库查询来检索引文,词类和语法类别或其共同出现的一致性。
可以从每个子语料库的描述中找到文本。一些subcorpora不能被下载。这些可以通过语料库查询来使用。

English-Estonian and Estonian-English parallel corpus

发表于 2018-06-24

提供者:朱述承
下载地址:http://www.cl.ut.ee/korpused/paralleel/

内容

这个语料库包含:
爱沙尼亚法律及其英文翻译,392个文件。
翻译成爱沙尼亚语的欧盟立法,2981 + 1093个文件。
文件名称反映源文件名称。

语料来源

语料来源于2002年4月30日爱沙尼亚法律语言中心(www.legaltext.ee)。对齐版本基于同一文件的TEI P3兼容版本。

标注

文本已经被句子对齐。列表项被视为等同于句子。爱沙尼亚语和英语句子可能会以1-1,1-2或2-1排列。在这个语料库中没有其他路线(如1-0,0-1,2-2等)。他们或者没有找到,或者被搁置在一旁,因为他们在未来的工作中很难使用,其目的是找到并行的多字单位。
标签和</ eesti>界定了爱沙尼亚语的部分; <英语>和</英语>分隔英文部分。翻译单元每隔一行分开一行,从第一行的原始(源)开始。
下标和上标用和标记。通常情况下,原始或翻译单元包含其中之一,但相应的并行单元不包含其中之一。

大小

爱沙尼亚语 - 英语平行文本

在392个文件中有153,500个并行单位(句子或列表项)。爱沙尼亚语有170万tokens,英语有290万tokens。

英文 - 爱沙尼亚语平行文本

根据源文本的原始划分,英文 - 爱沙尼亚文平行文本分为两组:在2981 + 1093个文件中,224,323 + 57,836个并行单位(句子或列表项)。爱沙尼亚语2.6 + 0.7百万tokens,英语3.9 + 1.0百万tokens。

Citysearch corpus语料库

发表于 2018-06-24

提供者:杜成玉
下载地址:https://download.csdn.net/download/qq280929090/10266761

概述

数据来源:https://blog.csdn.net/qq280929090/article/details/70838025
该语料库为餐馆评论数据,收集自Citysearch New York网站,可用于细粒度的情感分析任务中,即aspect extraction任务当中。在本资源中,分为原始数据和处理后数据两部分,其统计如下:# 数据集特征

相关论文

1.Lu B, Ott M, Cardie C, et al. Multi-aspect sentiment analysis with topic models[C]//Data Mining Workshops (ICDMW), 2011 IEEE 11th International Conference on. IEEE, 2011: 81-88.
2.He R, Lee W S, Ng H T, et al. An Unsupervised Neural Attention Model for Aspect Extraction[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017, 1: 388-397.
3.Hsu C K W B J P, Kıcıman M W C E. Simple and Knowledge-intensive Generative Model for Named Entity Recognition[J].

MS MARCO微软问答数据集

发表于 2018-06-23

提供者:卢梦依
下载地址:http://www.msmarco.org/dataset.aspx

简介

数据集概述

MS MARCO微软问答数据集,这个新的数据集旨在克服以前公开可用的数据集的一些众所周知的弱点,用于阅读理解和问题回答的相同任务。在MS MARCO中,所有问题都是从真正的匿名用户查询中抽取的。使用最高级版本的Bing搜索引擎从真实的Web文档中提取数据集中的答案来源的上下文段落。查询的答案是人为生成的。最后,这些查询的一个子集有多个答案。目标是在数据集中发布一百万个查询和相应的答案,据我们所知,这是数量和质量上最全面的同类数据集。

文件

该数据集包括:1,010,916 Real Bing User Queries,182,669 Natural Language Answers.No Answer Subset,10 Passages Per Query

  • 与其他问答数据集的比较:
  • 数据的组成:

相关论文

1.Nguyen T, Rosenberg M, Song X, et al. MS MARCO: A Human Generated MAchine Reading COmprehension Dataset[J]. 2016.

123…22

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4