世界语言资源平台

  • 首页
  • 标签
  • 归档

动物属性标记数据集

发表于 2018-05-27

提供者:刘维
下载地址:http://cvml.ist.ac.at/AwA2/

简介

数据集概述

该数据集提供了一个平台,用于基准的转移学习算法,特别是属性基分类和零射学习。它可以充当原始动物的替代,使用属性(AwA)数据集,因为它具有相同的类结构和几乎相同的特征。它包含了37322个50个动物的图像,每个图像都有预先提取的特征表示。这些类与Osherson的经典类/属性矩阵一致,从而为每个类提供85个数字属性值。使用共享属性,可以在不同的类之间传递信息。这些图像数据是在2016年从Flickr等公共资源中收集的。

文件

大小:包含了37322个50个动物的图像。
1.CUHK student data set 含188张faces
2.AR data set (123 faces)
3.XM2VTS data set (295 faces)

相关论文

[1] Y. Xian, C. H. Lampert, B. Schiele, Z. Akata. “Zero-Shot Learning - A Comprehensive Evaluation of the Good, the Bad and the Ugly” arXiv:1707.00600

[2] C. H. Lampert, H. Nickisch, and S. Harmeling. “Learning To Detect Unseen Object Classes by Between-Class Attribute Transfer”. In CVPR, 2009
[3] C. H. Lampert, H. Nickisch, and S. Harmeling. “Attribute-Based Classification for Zero-Shot Visual Object Categorization”. IEEE T-PAMI, 2013
[4]X. Tang, and X. Wang, “Face Photo Recognition Using Sketch,” in Proceedings of IEEE International Conference on Image Processing (ICIP), Vol. 1, pp. 257-260, Rochester, New York, Sept. 2002.

人脸素描数据集

发表于 2018-05-27

提供者:刘维
下载地址:http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html

简介

数据集概述

中大脸部素描数据库(CUFS)是面向人脸素描合成和人脸素描识别的研究。它包括来自香港中文大学(中大)学生数据库的188张脸,来自AR数据库的123张脸,以及295张来自XM2VTS数据库的面孔。总共有606张脸。对于每张脸,都有一幅画是由一位艺术家绘制的。

文件

大小:包含3个文件数据文件。
1.CUHK student data set 含188张faces
2.AR data set (123 faces)
3.XM2VTS data set (295 faces)

相关论文

  1. X. Wang and X. Tang, “Face Photo-Sketch Synthesis and Recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), Vol. 31, 2009.

  2. Qingshan Liu, Xiaoou Tang, Hongliang Jin, Hanqing Lu, and Songde Ma, A Nonlinear Approach For Face Sketch Synthesis and Recognition, Int’l Conf. on Computer Vision and Pattern Recognition (CVPR), 2005.

  3. X. Tang, and X. Wang, “Face Sketch Recognition,” IEEE Transactions on Circuits and Systems for Video Technology (CSVT), Special Issue on Image- and Video- Based Biometrics, Vol. 14, No. 1, pp. 50-57, January, 2004.

  4. X. Tang, and X. Wang, “Face Sketch Synthesis and Recognition,” in Proceedings of IEEE International Conference on Computer Vision (ICCV), 2003.

  5. X. Tang, and X. Wang, “Face Photo Recognition Using Sketch,” in Proceedings of IEEE International Conference on Image Processing (ICIP), Vol. 1, pp. 257-260, Rochester, New York, Sept. 2002.

语义关系分类数据集-semeval2007Task4

发表于 2018-05-27

提供者:卢梦依
下载地址:https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets/blob/master/datasets/SemEval2007-Task4.tar.gz

简介

数据集概述

Task 4的主要任务是简单名词(名词或基本名词短语)之间的语义关系的分类,例如,蜜蜂,显示了产品生产者关系的一个实例。这种分类发生在书面英语文本中的一个句子的语境中。语义关系分类算法可以应用于信息检索、信息提取、文本摘要、问答等方面。对文本蕴涵(Tatu和Moldovan, 2005)的认识是在高端NLP应用中成功使用这种类型的深入分析的一个例子。

文件

大小:小数据集,包含7个关系类型和总共1529个注释示例。

示例:

相关论文

1.T. Chklovskiand P. Pantel. 2004. Verbocean: Mining the web for fine-grained semantic verb relations. In Proc.Conf.onEmpiricalMethodsin NaturalLanguageProcessing, EMNLP-04, pages 33–40, Barcelona, Spain.
2.R. Girju, D. Moldovan, M. Tatu, and D. Antohe. 2005. On the semantics of noun compounds. Computer Speech and Language, 19:479–496.

中研院中文句结构树资料库

发表于 2018-05-25

提供者:朱述承
访问地址:http://treebank.sinica.edu.tw/

概述

“中文句结构树资料库”(Sinica Treebank Version 3.0) 包含了6个档案,61,087个中文树图,361,834个词,是中央研究院词库小组从中央研究院平衡语料库 (Sinica Corpus) 中抽取句子,经由电脑剖析成结构树,并加以人工修正、检验后所得的成果。在中文句结构树中,我们标示了中文句语意和语法的讯息。此一“中文句结构树资料库”目前开放网上检索及资料移转,以供学者专家在中文句法、语意关系研究参考之用。另有1000个句结构树开放下载。

100棵树图参考资料

http://turing.iis.sinica.edu.tw/treesearch/

中研院中古汉语标记语料库

发表于 2018-05-25

提供者:朱述承
访问地址:http://lingcorpus.iis.sinica.edu.tw/middle/

概述

“中央研究院中古汉语标记语料库”是“中央研究院古汉语语料库”(Academia Sinica Ancient Chinese Corpus)的一个次语料库。“中央研究院古汉语语料库”是应汉语史研究需求而建构的语料库。这个语料库又可依是否经过断词及加标词类而分成两类,即未加标的素语料库以及有标注的标记语料库。目前素语料库所收集的语料已含盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的重要语料,并已陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供线上检索。“中央研究院古汉语语料库”的建构始于一九九0年,创始者为黄居仁(语言所研究员)、谭朴森(英国伦敦大学亚非学院教授)、陈克健(资讯所研究员)、魏培泉(语言所研究员)等,最初的经费来源为蒋经国基金会及中央研究院历史语言研究所,目标是收集上古汉语的素语料。素语料库的构建自此未曾停歇,语料也由上古汉语扩充到中古汉语和近代汉语。

使用限制

院内检索限制两万行资料,院外检索限两千行资料。

功能简介

透过这个语料库的介面可以进行下列几项工作:
一、检索:首先进入“自订语料库”的画面,设定文献的搜寻范围,接著进入“内容检索”与“进阶处理”的画面,在自订语料库范围内针对词项、词头、词尾、词类、词类特征、重叠词型态……等进行检索以及进阶检索;
二、显示:有两种资料,“在关键词检索典”画面上,将检索到的资料依句显示在屏幕上,“文本”的画面出现该关键词所出现的该章回段落;
三、过滤:依照使用者设定的条件筛选语料;
四、词类累计:统计每个词类出现的数量;
五、统计共现率(collocation);
六、排序:针对使用者设定的条件将语料依序排列。

文献内容

抱朴子内篇 世说新语 新校搜神记 洛阳伽蓝记 颜氏家训
道行般若经 佛说兜沙经 阿门佛国经 佛说遗日摩尼宝经 佛说般舟三昧经
般舟三昧经 文殊师利问菩萨署经 法镜经 阿含口解十二因缘经 中本起经
修行本起经 梵摩渝经 佛说义足经 大明度经 佛说菩萨本业经
了本生死经 佛说四愿经 六度集经 生经 佛说普曜经
光讚经 大楼炭经 阿育王传 出曜经 大庄严论经
妙法莲华经 悲华经 百喻经 佛本行集经 佛说伅真陀罗所问如来三昧经
佛说阿闍世王经 齐民要术

LibriSpeech文本和语音的有声读物数据集

发表于 2018-05-25

提供者:杜成玉
下载地址:http://www.openslr.org/12/

概述

数据来源:https://www.zhihu.com/question/63383992/answer/222718972
该数据集为包含文本和语音的有声读物数据集,由Vassil Panayotov编写的大约1000小时的16kHz读取英语演讲的语料库。数据来源于LibriVox项目的阅读有声读物,并经过细致的细分和一致。推荐应用方向:自然语音理解和分析挖掘

相关论文

[1]Panayotov V, Chen G, Povey D, et al. Librispeech: an ASR corpus based on public domain audio books[C]//Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE, 2015: 5206-5210.
[2]Amodei D, Ananthanarayanan S, Anubhai R, et al. Deep speech 2: End-to-end speech recognition in english and mandarin[C]//International Conference on Machine Learning. 2016: 173-182.
[3]Ko T, Peddinti V, Povey D, et al. Audio augmentation for speech recognition[C]//Sixteenth Annual Conference of the International Speech Communication Association. 2015.
[4]Soltau H, Liao H, Sak H. Neural speech recognizer: Acoustic-to-word LSTM model for large vocabulary speech recognition[J]. arXiv preprint arXiv:1610.09975, 2016.
[5]Chung Y A, Wu C C, Shen C H, et al. Audio word2vec: Unsupervised learning of audio segment representations using sequence-to-sequence autoencoder[J]. arXiv preprint arXiv:1603.00982, 2016.

Common Crawl数据集

发表于 2018-05-25

提供者:杜成玉
下载地址:http://commoncrawl.org/the-data/get-started/

概述

数据来源:https://www.zhihu.com/question/63383992/answer/222718972
Common Crawl包含了超过7年的网络爬虫数据集,包含原始网页数据、元数据提取和文本提取。常见的爬行数据存储在Amazon Web服务的公共数据集和遍布全球的多个学术云平台上,拥有PB级规模,常用于学习词嵌入。推荐应用方向:文本挖掘、自然语言理解。

相关论文

[1]Buck C, Heafield K, Van Ooyen B. N-gram Counts and Language Models from the Common Crawl[C]//LREC. 2014, 2: 4.
[2]Smith J R, Saint-Amand H, Plamada M, et al. Dirt cheap web-scale parallel text from the common crawl[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2013, 1: 1374-1383.
[3]Spiegler S. Statistcs of the common crawl corpus 2012[R]. Technical report, SwiftKey, 2013.
[4]Mühleisen H, Bizer C. Web Data Commons-Extracting Structured Data from Two Large Web Corpora[J]. LDOW, 2012, 937: 133-145.
[5]Bizer C, Eckert K, Meusel R, et al. Deployment of rdfa, microdata, and microformats on the web–a quantitative analysis[C]//International Semantic Web Conference. Springer, Berlin, Heidelberg, 2013: 17-32.

Billion Words语言建模数据集

发表于 2018-05-25

提供者:杜成玉
下载地址:http://www.statmt.org/lm-benchmark/

概述

数据来源:https://zhuanlan.zhihu.com/p/25887325?utm_source=tuicool&utm_medium=referral
这是一个大型、通用的语言建模数据集,常用于如 word2vec 或 Glove 的分布式词语表征。它的目的是提供一个标准的培训和测试设置语言建模实验。训练/保持数据是从WMT 2011新闻爬行数据使用BASH shell和Perl脚本的组合在这里产生的。除了重建训练/保持数据所需的脚本之外,它还为每个十个Feld输出数据集中的每个单词提供可用的对数概率值,用于以下基线模型中的每一个:
·unpruned Katz (1.1B n-grams),
·pruned Katz (~15M n-grams),
·unpruned Interpolated Kneser-Ney (1.1B n-grams),
·pruned Interpolated Kneser-Ney (~15M n-grams)

相关论文

[1]Chelba C, Mikolov T, Schuster M, et al. One billion word benchmark for measuring progress in statistical language modeling[J]. arXiv preprint arXiv:1312.3005, 2013.
[2]Abadi M, Barham P, Chen J, et al. TensorFlow: A System for Large-Scale Machine Learning[C]//OSDI. 2016, 16: 265-283.
[3]Le Q V, Jaitly N, Hinton G E. A simple way to initialize recurrent networks of rectified linear units[J]. arXiv preprint arXiv:1504.00941, 2015.
[4]Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of wasserstein gans[C]//Advances in Neural Information Processing Systems. 2017: 5769-5779.
[5]Chen J, Pan X, Monga R, et al. Revisiting distributed synchronous SGD[J]. arXiv preprint arXiv:1604.00981, 2016.

2000 HUB5 English Evaluation Transcripts语音数据集

发表于 2018-05-25

提供者:杜成玉
下载地址:https://catalog.ldc.upenn.edu/LDC2002S09

概述

数据来源:https://www.zhihu.com/question/63383992/answer/222718972
该数据集由NIST(国家标准与技术研究院)2000年发起的HUB5评估中使用的40个英语电话对话的成绩单组成,其仅包含英语的语音数据集,百度最近的论文《深度语音:扩展端对端语音识别》使用的是这个数据集。推荐应用方向:音乐、人声、车辆、乐器、室内等自然和人物声音识别。

相关论文

[1]Hain T, Woodland P C, Evermann G, et al. New features in the CU-HTK system for transcription of conversational telephone speech[C]//Acoustics, Speech, and Signal Processing, 2001. Proceedings.(ICASSP’01). 2001 IEEE International Conference on. IEEE, 2001, 1: 57-60.
[2]Seide F, Li G, Chen X, et al. Feature engineering in context-dependent deep neural networks for conversational speech transcription[C]//Automatic Speech Recognition and Understanding (ASRU), 2011 IEEE Workshop on. IEEE, 2011: 24-29.
[3]Sundaram R, Ganapathiraju A, Hamaker J, et al. ISIP 2000 conversational speech evaluation system[C]//Speech Transcription Workshop, College Park, Maryland, USA. 2000.
[4]Woodland P C, Povey D. Large scale MMIE training for conversational telephone speech recognition[C]//Proc. Speech Transcription Workshop. 2000, 2(2).

中研院上古汉语标记语料库

发表于 2018-05-25

提供者:朱述承
访问地址:http://lingcorpus.iis.sinica.edu.tw/ancient/

概述

“中央研究院上古汉语标记语料库”是“中央研究院古汉语语料库”(Academia Sinica Ancient Chinese Corpus)的一个次语料库。“中央研究院古汉语语料库”是应汉语史研究需求而建构的语料库。这个语料库又可依是否经过断词及加标词类而分成两类,即未加标的素语料库以及有标注的标记语料库。目前素语料库所收集的语料已含盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的重要语料,并已陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供线上检索。“中央研究院古汉语语料库”的建构始于一九九0年,创始者为黄居仁(语言所研究员)、谭朴森(英国伦敦大学亚非学院教授)、陈克健(资讯所研究员)、魏培泉(语言所研究员)等,最初的经费来源为蒋经国基金会及中央研究院历史语言研究所,目标是收集上古汉语的素语料。素语料库的构建自此未曾停歇,语料也由上古汉语扩充到中古汉语和近代汉语。

使用限制

院内检索限制两万行资料,院外检索限两千行资料。

功能简介

透过这个语料库的介面可以进行下列几项工作:
一、检索:首先进入“自订语料库”的画面,设定文献的搜寻范围,接著进入“内容检索”与“进阶处理”的画面,在自订语料库范围内针对词项、词头、词尾、词类、词类特征、重叠词型态……等进行检索以及进阶检索;
二、显示:有两种资料,“在关键词检索典”画面上,将检索到的资料依句显示在屏幕上,“文本”的画面出现该关键词所出现的该章回段落;
三、过滤:依照使用者设定的条件筛选语料;
四、词类累计:统计每个词类出现的数量;
五、统计共现率(collocation);
六、排序:针对使用者设定的条件将语料依序排列。

文献内容

尚书 诗经 周易 仪礼 周礼
礼记 春秋公羊传 春秋穀梁传 左传 国语
战国策 论语 孟子 墨子 庄子
荀子 韩非子 吕氏春秋 老子 商君书
管子 晏子 孙子 大戴 韩诗外传
吴子 尉缭 六韬 司马法 慎子
通玄真经(文子) 关尹子 鶡冠子 邓析子 孝经
素问 灵枢 孔子家语 孔丛子 史记
新语 春秋繁露 淮南 新序 说苑
新书 马王堆汉墓帛书(一) 睡虎地秦墓竹简

1…8910…22

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4