世界语言资源平台

  • 首页
  • 标签
  • 归档

Google Books Ngram

发表于 2018-04-27

提供者:刘唯

简介

Google在2005年开始Google Books Library Project项目,试图囊括自现代印刷术发明以来的全世界所有的书刊。至2012年,已完成超过520万本书,包含5千亿个单词。
Google Books Library Project与Google’s Partner Program共同组建成广为人知的Google Books.
Google对书籍的处理不仅是扫描,还进行了数字化与数据化,这样就巧妙地避开了大多版权问题。庞大数据库甚至孕育了一个新学科的成立。
Ngram就是借用这个庞大的数据库开发的小工具。Google Books Ngram提供了谷歌图书扫描并数字化的部分图书(占人类出版书籍的4%)的Ngram数据。你可以查询从1800年到现在,所有出版物中一个词汇出现的频率变化曲线。

地址

https://books.google.com/ngrams

使用说明

比如试一下influenza,发现在1920年、1930年、1960年出现了三个波峰。这与“1918大流感”、“亚洲流感”等历史事件吻合。
看一下全球气候,发现sea levels、atmospheric、global temperature这三个词的热度在近50年飞速增长。
再举一个例子,限定英文书籍数据库,搜索一位名为Marc Chagall的艺术家,是一条上升的曲线,知名度越来越高,是正常的。但是,德语书籍数据库中的曲线在19333-1945年出现了异常的低谷。这是因为Marc是犹太人,在特殊年代他的名字被和谐了。

Ngram源自计算机语言n-gram。
目前收录的语种包括但不限于:美式英语、英式英语、法语、德语、西班牙语、俄罗斯语、希伯来语、汉语。
Ngram Viewer收录的单词或短语需满足一项要求:该词或短语在某年出版超过40本书中出现过,才会有该年该词的数据点。
数据进行了标准化处理来削弱某些年份某些书印数过多对结果的影响。

相关论文

[1]Martin Ravallion. The Two Poverty Enlightenments: Historical Insights from Digitized Books Spanning Three Centuries[J]. Poverty & Public Policy,2011,3(2).
[2]Szymon Grabowski,Jakub Swacha. Google Books Ngrams Recompressed and Searchable[J]. Foundations of Computing and Decision Sciences,2012,37(4).
[3]Vladimir Ivanov. Extracting Frame-Like Structures from Google Books NGram Dataset[M].Springer International Publishing:2014-06-15.
[4]Pierre A. Morgon. Sustainable Development for the Health-Care Industry: Setting the Stage[M].Springer International Publishing:2015-06-15.
[5]Daniel Rex Richards. The content of historical books as an indicator of past interest in environmental issues[J]. Biodiversity and Conservation,2013,22(12).
[6]Bates, Mary Ellen. Ngrams, Anyone?[J]. Online,2011,35(4).
[7]KEHE, JASON. We Are What We Write[J]. Wired,2013,21(12).
[8]Twenge Jean M,Campbell W Keith,Gentile Brittany. Increases in individualistic words and phrases in American books, 1960-2008.[J]. PL o S One,2012,7(7).
[9]Marc Egnal. Evolution of the Novel in the United States[J]. Social Science History,2013,37(2).
[10]Christiaan H Vinkers,Joeri K Tijdink,Willem M Otte. Use of positive and negative words in scientific PubMed abstracts between 1974 and 2014: retrospective analysis[J]. BMJ,2015,351(dec14 13).
[11]Vinkers Christiaan H,Tijdink Joeri K,Otte Willem M. Use of positive and negative words in scientific PubMed abstracts between 1974 and 2014: retrospective analysis[J]. BMJ,2015,351(dec14 13).

Car Evaluation数据集

发表于 2018-04-27

提供者:杜成玉
下载地址:http://archive.ics.uci.edu/ml/machine-learning-databases/car/

概述

数据来源:https://www.jianshu.com/p/be23b3870d2e

这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。

数据集特征

数据来源:

特征:多变量
记录数:1728
属性特征:类别型
属性数目:6
相关应用:分类
缺失值?没有

相关论文

1.M. Bohanec and V. Rajkovic: Knowledge acquisition and explanation for multi-attribute decision making. In 8th Intl Workshop on Expert Systems and their Applications, Avignon, France. pages 59-78, 1988.
2.B. Zupan, M. Bohanec, I. Bratko, J. Demsar: Machine learning by function decomposition. ICML-97, Nashville, TN. 1997 (to appear)
3.Qingping Tao Ph. D. MAKING EFFICIENT LEARNING ALGORITHMS WITH EXPONENTIALLY MANY FEATURES. Qingping Tao A DISSERTATION Faculty of The Graduate College University of Nebraska In Partial Fulfillment of Requirements. 2004.
4.Daniel J. Lizotte and Omid Madani and Russell Greiner. Budgeted Learning of Naive-Bayes Classifiers. UAI. 2003.
5.Jianbin Tan and David L. Dowe. MML Inference of Decision Graphs with Multi-way Joins and Dynamic Attributes. Australian Conference on Artificial Intelligence. 2003.

Jester Joke推荐系统数据集

发表于 2018-04-27

提供者:杜成玉
下载地址:http://eigentaste.berkeley.edu/dataset/

数据来源:http://www.52ml.net/196.html

Jester Joke是一个网上推荐和分享笑话的网站。这个数据集有73496个用户对100个笑话作的410万次评分。评分范围是-10~10的连续实数。这些数据是由加州大学伯克利分校的Ken Goldberg公布的。

相关论文

1.Babacan S D, Luessi M, Molina R, et al. Sparse Bayesian methods for low-rank matrix estimation[J]. IEEE Transactions on Signal Processing, 2012, 60(8): 3964-3977.
2.Zaier Z, Godin R, Faucher L. Evaluating recommender systems[C]//Automated solutions for Cross Media Content and Multi-channel Distribution, 2008. AXMEDIS’08. International Conference on. IEEE, 2008: 211-217.
3.Miyahara K, Pazzani M J. Collaborative filtering with the simple Bayesian classifier[C]//Pacific Rim International conference on artificial intelligence. Springer, Berlin, Heidelberg, 2000: 679-689.
4.Lee H H, Teng W G. Incorporating multi-criteria ratings in recommendation systems[C]//Information Reuse and Integration, 2007. IRI 2007. IEEE International Conference on. IEEE, 2007: 273-278.
5.Zhou J, Luo T. Towards an introduction to collaborative filtering[C]//Computational Science and Engineering, 2009. CSE’09. International Conference on. IEEE, 2009, 4: 576-581.

COCA语料库

发表于 2018-04-23

提供者:刘唯
链接:http://corpus/byu.edu/coca

简介

美国当代英语语料库(Corpus of Contemporary American English)由美国Brigham Young University的Mark Davies教授开发,目前单词容量为4.25亿,是美国目前最新的当代英语语料库,同时也是当今世界上最大的英语平衡语料库。该语料库的语料来自1990——2011年,每年更新,检索功能强大,因此它是最佳的英语学习助手。有了一定英语基础的学习者都应学会使用它,它也是英语教师最好的教学资源之一。

使用攻略

查单词

直接输入
对于具有不同词性的单词,可带上相应的标签。如welcome一词,若查名词用法,可输入welcome.[NN1];若查形容词用法,可输入welcome[JJ];若查动词用法,可输入welcome.[VVO].

查短语

直接输入

查句子

直接输入

查前缀

可借助通配符,如输入dis,be*等

查后缀

可借助通配符,如输入less

查具有相同字母的某些单词

可借助通配符,如输入tedte

查词根

可借助通配符,如输入rere

查同义词

可借助方括号和等号,如输入[=give]
比较同义词,可点击COMPARE-WORDS,然后再WORDS输入同义词比较的同义词

查搭配

比如若想查看invent后接的名词宾语,输入invent,然后POS LIST对话框选择noun.ALL

相关论文

[1]汪兴富,Mark Davies,刘国辉.美国当代英语语料库(COCA)——英语教学与研究的良好平台[J].外语电化教学,2008(05):27-33.
[2]冯恩玉,吴蕾.基于COCA语料库的英语近义词差异性研究——以confess等近义词为例[J].西安航空学院学报,2016,34(02):25-28+59.
[3]彭程.短语学视角下的二语同义词组习得对比——一项基于CLEC及COCA语料库的研究[J].北京第二外国语学院学报,2016,38(04):55-67+133.
[4]王大鹏.基于COCA语料库的英语同义词辨析——以obtain等同义词为例[J].渤海大学学报(哲学社会科学版),2013,35(01):72-74.
[5]张艳敏.美国多元媒介中的江苏国际形象研究——基于COCA语料库的实证分析[J].江苏科技大学学报(社会科学版),2016,16(03):86-94.
[6]曹巍,王珊,覃雄派,王秋月.面向不同数据分布的多维直方图算法COCA-Hist[J].计算机学报,2008(06):1013-1024.
[7]兰丽珍.基于COCA语料库的英语近义词研究——以careful和cautious为例[J].内蒙古财经大学学报,2017,15(06):107-110.

中文句结构树资料库

发表于 2018-04-23

提供者:刘唯
链接:http://turing.iis.sinica.edu.tw/treesearch/

简介

中文句结构树资料库检索工具 3.0 版,是由中文词识库小组(CKIP)设计完成,该系统是基于Internet的Web平台,使用者只要透过网际网路浏览器,即可操作本系统。该系统可以帮忙研究者,找到符合相关条件的中文剖析树,而进行研究。并以图文的方式让使用者可以清础地瞭解剖析树的内容。而不用去一个一个的找寻,大大地省去找寻的时间。本系统提供使用者对Sinica Treebank进行检索的动作,以阶层式查询来完成使用者的需求。透过相关查询的结果,使用者可以瞭解到中文句结构树中的词的语意角色与词组语法的标记方式。系统在主层检索中提供关键词查询与句型结构查询功能,对于查询后的结果可再依指定范围进行过滤与统计的动作。其范围包含同词组、同句子、左右距离与同关连关系的匹配词范围;统计包含有句型、词类、词、语意角色统计。

使用说明

进入中文剖析树检索系统后,本系统提供使用者可以「关键词」或「句型」的条件方式搜寻相关的中文剖析树,并对搜寻后的结果可以再次设定条件搜寻。因为,分为第一层搜寻与再过滤(即第N层搜寻)二个部份。

依关键词搜索

有词/词类/角色/特征的项目供使用者填入,使用者可以依需求填入必要的项目。举例来说,如果要查「我们」,就在词的部份填入「我们」即可;如果要查「我们」词类为「Nhaa」的话,在词的部份填入「我们」,并在词类的部份填入「Nhaa」即可;总而言之,它是复合式条件的输入,但看使用者的而求而定。另外,如果使用者对词类不熟,可以「%」代表万用字元。比如说,使用者想查 “Nh” 开头的词类,可以在词类类的栏位键入「Nh%」即可。

依句型搜索

以「句型」为搜寻剖析树结构的方式,其中包含「专业用法」、「标准结构」和「文字输入」,三种方式。以想要查询 “S(experiencer:NP|Head:VL1:爱|goal:NP)” 句型为例专业用法的搜寻表达方式如下,
S < ((/experiencer:NP/) $.. ((/Head:VL1/ < 爱) $.. ((/goal:NP/))))
特别说明:
A < B —> A(B)
A $.. B —> A|B
/A/ < B —> A*(B)
请在输入完毕后,按下 [更新] 按钮,可以检视其它输入方式的内容。
而标准结构的搜寻则是输入:
S(experiencer:NP|Head:VL1:爱|goal:NP)
同样的请在输入完毕后,按下 [更新] 按钮,可以检视其它输入方式的内容。
假设你都不知道要输入什麽的结构,可以输入文字,进行线上剖析,会显示其剖析结果,再加以修改。
输入:我爱你  按下 [剖析] 按钮
输出:S(experiencer:NP(Head:Nhaa:我)|Head:VL1:爱|goal:NP(Head:Nhaa:你))

再处理

再处理的部份,主要再缩小范围,找到更符合条件的树或查看其统计频率讯息。系统提供使用者对查询后的结果进行统计与过滤的动作。
首要任务就是先设定好处理的范围,系统提供五种范围设定:全句、同关键词词组、关键词左右范围、搭配词,接下来是依使用者的需求而定,如果要进行过滤的动作(也就是对经由第一层查询后的结果,再进行过滤分析的动作)系统提供:搭配词过滤、句型过滤。另外的统计部份,系统提供以下的统计:句型、角色/词类/词、角色、词类、词,并且可以设定频率下限,内定值为2。

过滤

若过滤的对像是「搭配词」,记得在搭配词上打勾。搜寻对象为「词类」、「语义角色」、「特徵」可点选各自右方的 ,即可得到剖析树所有的词类和语义角色,以便查询,至于各词类及论旨角色的特性和分类原则,可参考「词库小组技术报告93-05中文词类分析」,里面有详细分析和说明。或自行依不同类别,作不同的输入。
若过滤的对象是「句型」,其条件的输入方式同第一层的句型输入方式。只是,如果使用者是再「句型」查询后进入再处理的动作,操作方式都是一样的。

统计

在统计的部份,接着前一次查询「我们」的结果,假设想查询「我们」有哪些词类,可以在范围里设定,起与迄可以是正负值。并点选统计左侧的选项,再点选词类的项,在按执行按钮之后,就会出现统计的结果。

相关论文

1.Susan J. Blalock,Carri Casteel,Mary T. Roth,Stefanie Ferreri,Karen B. Demby,Viswanathan Shankar. Impact of enhanced pharmacologic care on the prevention of falls: A randomized controlled trial[J]. American Journal of Geriatric Pharmacotherapy,2010,8(5).

Fashion MINIST

发表于 2018-04-22

提供者:刘唯

简介

FashionMNIST 是一个替代 MNIST 手写数字集 [1] 的图像数据集。 它是由 Zalando(一家德国的时尚科技公司)旗下的研究部门提供。其涵盖了来自 10 种类别的共 7 万个不同商品的正面图片。FashionMNIST 的大小、格式和训练集/测试集划分与原始的 MNIST 完全一致。60000/10000 的训练测试数据划分,28x28 的灰度图片。你可以直接用它来测试你的机器学习和深度学习算法性能,且不需要改动任何的代码。

获取数据

名称描述样本数量文件大小链接train-images-idx3-ubyte.gz训练集的图像60,00026 MByteshttps://link.zhihu.com/?target=http%3A//fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz
train-labels-idx1-ubyte.gz训练集的类别标签60,00029 KByteshttps://link.zhihu.com/?target=http%3A//fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz
t10k-images-idx3-ubyte.gz测试集的图像10,0004.2 MByteshttps://link.zhihu.com/?target=http%3A//fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz
t10k-labels-idx1-ubyte.gz测试集的类别标签10,0005.0 KByteshttps://link.zhihu.com/?target=http%3A//fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz

类别标注

每个训练和测试样本都按照以下类别进行了标注:
标注编号描述0T-shirt/top(T恤)1Trouser(裤子)2Pullover(套衫)3Dress(裙子)4Coat(外套)5Sandal(凉鞋)6Shirt(汗衫)7Sneaker(运动鞋)8Bag(包)9Ankle boot(踝靴)

如何载入数据

使用Python (需要安装numpy)

import mnist_reader
X_train, y_train = mnist_reader.load_mnist(‘data/fashion’, kind=’train’)
X_test, y_test = mnist_reader.load_mnist(‘data/fashion’, kind=’t10k’)

使用Tensorflow

from tensorflow.examples.tutorials.mnist import input_data
data = input_data.read_data_sets(‘data/fashion’)

data.train.next_batch(100)

数据可视化

t-SNE在Fashion-MNIST(左侧)和经典MNIST上的可视化(右侧)
PCA在Fashion-MNIST(左侧)和经典MNIST上的可视化(右侧)

相关论文

1.Han Xiao;Kashif Rasul;Roland Vollgraf.Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms[J].Learning.2017

SQuAD The Stanford Question Answering Dataset 问答数据集

发表于 2018-04-21

提供者:卢梦依
下载地址:https://rajpurkar.github.io/SQuAD-explorer/

简介

数据集概述

斯坦福问题回答数据集(SQuAD)是一种新的阅读理解数据集,由一组维基百科文章的工作者提出的问题组成,
其中每个问题的答案都是从相应阅读段落中截取的一段文字。
在500+的文章中,有100,000+的问题-答案对,SQuAD显着大于以前的阅读理解数据集。

文件大小

训练集30M
验证集5M

数量

约30,000,000个句子及其翻译

相关论文

1.Rajpurkar P, Zhang J, Lopyrev K, et al. SQuAD: 100,000+ Questions for Machine Comprehension of Text[J]. 2016:2383-2392.
2.Wang Z, Mi H, Hamza W, et al. Multi-Perspective Context Matching for Machine Comprehension[J]. 2016.
3.Kim S, Park D, Choi Y, et al. A Pilot Study of Biomedical Text Comprehension using an Attention-Based Deep Neural Reader: Design and Experimental Analysis.[J]. Jmir Medical Informatics, 2018, 6(1):e2.
4.Reutebuch C K, Zein F E, Min K K, et al. Investigating a reading comprehension intervention for high school students with autism spectrum disorder: A pilot study[J]. Research in Autism Spectrum Disorders, 2015, 9:96-111.
5.Yin W, Ebert S, Schütze H. Attention-Based Convolutional Neural Network for Machine Comprehension[J]. 2016.
6.Cui Y, Chen Z, Wei S, et al. Attention-over-Attention Neural Networks for Reading Comprehension[C]// Meeting of the Association for Computational Linguistics. 2017:593-602.

The 20 Newsgroups data set 新闻组数据集

发表于 2018-04-21

提供者:卢梦依
下载地址:http://qwone.com/~jason/20Newsgroups/

简介

数据集概述

该数据集包含着新闻组相关的文本数据信息。这二十个新闻组数据集合收集了大约20,000新闻组文档,均匀的分布在20个不同的集合。这些文档具有新闻的典型特征:主题,作者和引述。

文件

大小:20 MB
类型:txt文本
数量:来自20个新闻组的20,000条消息

相关论文

1.Kim Y. Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.
2.Joulin A, Grave E, Bojanowski P, et al. Bag of Tricks for Efficient Text Classification[J]. 2016:427-431.
3.Zhang Y, Wallace B. A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification[J]. Computer Science, 2015.
4.Ji Y L, Dernoncourt F. Sequential Short-Text Classification with Recurrent and Convolutional Neural Networks[J]. 2016:515-520.
5.Chen G, Ye D, Xing Z, et al. Ensemble application of convolutional and recurrent neural networks for multi-label text categorization[C]// International Joint Conference on Neural Networks. IEEE, 2017:2377-2383.

Machine Translation of Various Languages 机器翻译数据集

发表于 2018-04-21

提供者:卢梦依
下载地址:http://statmt.org/wmt18/translation-task.html#download

简介

数据集概述

该数据集包含四种欧洲语言的训练数据。可用于改进当前的翻译方法。有以下语言互译可供参考:

  • 英汉和汉英
  • 英语 - 捷克语和捷克语 - 英语
  • 英语 - 爱沙尼亚语和爱沙尼亚语 - 英语
  • 英语 - 芬兰语和芬兰语 - 英语
  • 英语 - 德语和德语 - 英语
  • 英语 - 哈萨克语和哈萨克语 - 英语
  • 英文 - 俄文和俄文 - 英文
  • 英语 - 土耳其语和土耳其语 - 英语

文件大小

约15 GB

数量

约30,000,000个句子及其翻译

相关论文

1.Gehring J, Auli M, Grangier D, et al. Convolutional Sequence to Sequence Learning[J]. 2017.
2.Wu Y, Schuster M, Chen Z, et al. Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation[J]. 2016..
3.Luong M T, Manning C D. Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models[J]. 2016:1054-1063.
4.Lee J, Cho K, Hofmann T. Fully Character-Level Neural Machine Translation without Explicit Segmentation[J]. 2016.
5.Chung J, Cho K, Bengio Y. A Character-Level Decoder without Explicit Segmentation for Neural Machine Translation[J]. 2016.
6.Firat O, Cho K, Bengio Y. Multi-Way, Multilingual Neural Machine Translation with a Shared Attention Mechanism[J]. 2016:866-875.

Sentiment140 - A Twitter Sentiment Analysis Tool 情感分析数据集

发表于 2018-04-21

提供者:卢梦依
下载地址:http://help.sentiment140.com/for-students/

简介

数据集概述

Sentiment140是一个可用于情感分析的数据集。
数据集具有以下6个特征:

  • 推文的感情色彩(polarity)
  • 推文的ID
  • 推文的日期
  • 查看记录
  • 推特(tweeter)的用户名
  • 推文的文本内容

文件大小

大小:80 MB(压缩包)

数量

160,000条推文

相关论文

1.Zhang X, Zhao J, Lecun Y. Character-level Convolutional Networks for Text Classification[J]. 2015:649-657.
2.Severyn, A., & Moschitti, A. UNITN: Training Deep Convolutional Neural Network for TwitterSentiment Classification.
3.Xu, J., Wang, P., Tian, G., Xu, B., Zhao, J., Wang, F., & Hao, H. (2015,June). Short TextClustering via Convolutional Neural Networks. In Proceedings of NAACL-HLT (pp.62-69).
4.Wang, P., Xu, J., Xu, B., Liu, C. L., Zhang, H., Wang, F., & Hao, H.(2015). SemanticClustering and Convolutional Neural Network for Short Text Categorization.In Proceedings of the 53rd Annual Meeting of the Association forComputational Linguistics and the 7th International Joint Conference on NaturalLanguage Processing (Vol.2, pp. 352-357).
5.Liu, Y., Liu, Z., Chua, T. S., & Sun, M. (2015, February). Topical Word Embeddings.In Twenty-Ninth AAAI Conference on Artificial Intelligence.

1…161718…22

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4