世界语言资源平台

  • 首页
  • 标签
  • 归档

语言开放典藏社群(OLAC)

发表于 2018-07-01

提供者:杜成玉
下载地址:http://search.language-archives.org/index.html

概述

数据来源:https://www.douban.com/note/269081724/

OLAC(Open Language Archives Community)http://search.language-archives.org/index.html语言开放典藏社群是由个人或组织所组成的国际性合作协会。许多种类的协会需要语言资源,如:语言学家、工程师、教师、演说家,也有许多机构提供片段性的架构,如:文件管理器、软件开发者和出版者。理论上,用户希望透过单一接口便可以取得任何需要的资源,其中资源种类涵盖:①资料(Data):任何描述语言的相关信息;②工具(Tool):有助于创造、浏览、查询或使用语言数据的计算器资源;③建议(Advice):譬如,告知使用者什么资源具有高可靠度?在此情境中哪一种工具适合采用?当新的数据衍生出时该如何创造?但实际上,却有着语言资源散布在不同的网站、使用者无法得到想要的资源、语言资源在不同网站拥有不同名字(Name)造成召回率(recallrate)低,在其他领域有相同意义,造成正确率低(precision rate)、许多语言资源并非以文字为基础、不确定是否有建议适当软件,以及所提出的建议是否中肯…等问题。OLAC由此诞生。藉由下列步骤进行创造世界性语言资源的虚拟图书馆:针对语言资源数字典藏发展一致性的实践指引;发展网络上具有互操作性且提供存取相关语言资源的储存器(Repositories)和服务中心。

清华大学的汉语均衡语料库THACorpus

发表于 2018-07-01

提供者:杜成玉
下载地址:http://www.umist.ac.uk/ctis/research/research-overview.htm

概述

数据来源:https://www.douban.com/note/269081724/

翻译语料库方面则以英国曼彻斯特大学科技学院(UMIST) 翻译研究中心1995年创建的世界上第一个翻译语料库( Translational EnglishCorpus , TEC) 最为著名。该语料库主要收集从各国语言翻译成英语的文本,目前已有上千万词的语料(目标是5 千万词) ,分小说(约占80 %) 传记、报纸和期刊4 个子库。它并不要求必须双语对齐。该库不仅对语料进行了附码标注,还带有许多超语言信息的标注,如对译者情况(包括译者姓名、性别、民族、职业、翻译方向等) 、翻译方式、翻译类型、源语、原书情况、出版社等等均一一予以标注。

相关论文

[1]翟颖华. 面向第二语言教学的现代汉语核心词研究[D].武汉大学,2012.
[2]李素建. 汉语组块计算的若干研究[D].中国科学院研究生院(计算技术研究所),2002.
[3]任海波. 现代汉语AABB重叠式词构成基础的统计分析[A]. 华中师范大学语言与语言教育研究中心.华中语学论库(第二辑)——汉语重叠问题[C].华中师范大学语言与语言教育研究中心:,2000:14.

印度新闻标题数据集

发表于 2018-06-30

提供者:朱述承
访问地址:https://www.kaggle.com/therohk/india-headlines-news-dataset

简介

汇编了2001年至2017年印度“泰晤士报”发表的270万条新闻的标题。

内容

20010101 sports.wwe win over cena satisfying but defeating undertaker bigger roman reigns
20010102 bollywood Raju Chacha
20010102 unknown Status quo will not be disturbed at Ayodhya; says Vajpayee
20010102 unknown Fissures in Hurriyat over Pak visit
20010102 unknown America’s unwanted heading for India?
20010102 unknown For bigwigs; it is destination Goa
20010102 unknown Extra buses to clear tourist traffic
20010102 unknown Dilute the power of transfers; says Riberio
20010102 unknown Focus shifts to teaching of Hindi
20010102 unknown IT will become compulsory in schools
20010102 unknown Move to stop freedom fighters’ pension flayed
20010102 unknown Gilani claims he applied for passport 2 years ago
20010102 unknown Parivar dismisses PM’s warning
20010102 unknown India; Pak exchange lists of N-plants
20010102 unknown Will Qureshi’s return really help the govt?
20010102 unknown PM’s tacit message: Put Ram tample on hold
20010102 unknown Text of the Prime Minister’s article
20010102 unknown NCW to focus on violence against women
……

20万英语笑话文本数据集

发表于 2018-06-30

提供者:朱述承
访问地址:https://github.com/taivop/joke-dataset

简介

这个数据库中有大约208000个笑话。

文件

目前数据集包含来自三个来源的笑话。
reddit_jokes.json | 195K jokes | 7.40M tokens
stupidstuff.json | 3.77K jokes | 396K tokens
wocka.json | 10.0K jokes | 1.11M tokens
TOTAL | 208K jokes | 8.91M tokens

格式

每个文件都是一个JSON文档,其中包含一个笑话对象的平面列表。每个笑话对象总是具有基于数据集的附加字段的正文字段。显然这些笑话并不全是好笑的;我们希望可以找到最好的,排序在相关的其他领域。请注意,这个标题在许多情况下都是笑话的一部分(特别是对于Reddit提交的笑话)。

仇恨言语识别数据集

发表于 2018-06-30

提供者:朱述承
访问地址:https://github.com/t-davidson/hate-speech-and-offensive-language

简介

ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者贡献。包含3类短文本:a)包含仇恨言论;b)是冒犯性的,但没有仇恨言论;c)根本没有冒犯性。由15,000行文本构成,每个字符串都经过3人判断。

大小

3MB

说明

您可以在数据目录中找到我们标记的数据。我们已经将它们包含为pickle文件(Python 2.7)和CSV。您还可以在src目录中找到一个包含Python 2.7代码的笔记,以复制文章中的分析结果以及我们生成的词典目录中的词典,以便更准确地分类仇恨言论。分类器目录包含一个脚本,说明以及用于在新数据上运行分类器的必要文件,并提供了一个测试用例。

Jeopardy数据集

发表于 2018-06-30

提供者:朱述承
访问地址:https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

简介

包含216,930个危险问题。

大小

53MB

数据来源

http://www.j-archive.com/

格式

‘category’ : the question category, e.g. “HISTORY”
‘value’ : $ value of the question as string, e.g. “$200”
Note: This is “None” for Final Jeopardy! and Tiebreaker questions
‘question’ : text of question
Note: This sometimes contains hyperlinks and other things messy text such as when there’s a picture or video question
‘answer’ : text of answer
‘round’ : one of “Jeopardy!”,”Double Jeopardy!”,”Final Jeopardy!” or “Tiebreaker”
Note: Tiebreaker questions do happen but they’re very rare (like once every 20 years)
‘show_number’ : string of show number, e.g ‘4680’
‘air_date’ : the show air date in format YYYY-MM-DD

The Wikipedia Corpus

发表于 2018-06-29

提供者:刘唯

简介

该数据集是维基百科全文的集合。它包含来自400多万篇文章的将近19亿单词。这是个强大的NLP数据集–你可以通过单词,短语或段落来进行检索。

大小

20MB

数量

4,400,000篇文章,19亿单词

地址

https://nlp.cs.nyu.edu/wikipedia-data/

相关论文

[1]Mohamad Mehdi,Chitu Okoli,Mostafa Mesgari,Finn Årup Nielsen,Arto Lanamäki. Excavating the mother lode of human-generated text: A systematic review of research that uses the wikipedia corpus[J]. Information Processing and Management,2016.
[2]Joel Nothman,Nicky Ringland,Will Radford,Tara Murphy,James R. Curran. Learning multilingual named entity recognition from Wikipedia[J]. Artificial Intelligence,2013,194.

Visual QA

发表于 2018-06-29

提供者:刘唯

简介

VQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解视野和语言。有以下特点:

1.265,016张图片(COCO和抽象场景)

2.每张图片至少有3个问题(平均5.4个问题)

3.每个问题10个基本事实

4.每个问题3个似乎合理(但可能不正确)的答案

5.指标自动评估

大小

25GB(压缩包)

数量

265,016张图片,每张图片至少3个问题,每个问题10个基本事实

地址

http://www.visualqa.org/

相关论文

[1] A.Agrawal,D.Batra,andD.Parikh.AnalyzingtheBehavior of Visual Question Answering Models. In EMNLP, 2016. 1
[2] J. Andreas, M. Rohrbach, T. Darrell, and D. Klein. Deep compositional question answering with neural module networks. In CVPR, 2016. 2
[3] S. Antol, A. Agrawal, J. Lu, M. Mitchell, D. Batra, C. L. Zitnick, and D. Parikh. VQA: Visual Question Answering. In ICCV, 2015. 1, 2, 4, 5, 6, 9, 10
[4] X. Chen and C. L. Zitnick. Mind’s Eye: A Recurrent VisualRepresentationforImageCaptionGeneration.InCVPR, 2015. 1
[5] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR, 2009. 9
[6] J. Devlin, S. Gupta, R. B. Girshick, M. Mitchell, and C. L. Zitnick. Exploring nearest neighbor approaches for image captioning. CoRR, abs/1505.04467, 2015. 1
[7] J. Donahue, L. A. Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell. Long-term Recurrent Convolutional Networks for Visual Recognition and Description. In CVPR, 2015. 1
[8] H. Fang, S. Gupta, F. N. Iandola, R. Srivastava, L. Deng, P. Doll´ar, J. Gao, X. He, M. Mitchell, J. C. Platt, C. L. Zitnick, and G. Zweig. From Captions to Visual Concepts and Back. In CVPR, 2015. 1
[9] A. Fukui, D. H. Park, D. Yang, A. Rohrbach, T. Darrell, and M.Rohrbach. MultimodalCompactBilinearPoolingforVisualQuestionAnsweringandVisualGrounding. InEMNLP, 2016. 2, 6, 7
[10] H. Gao, J. Mao, J. Zhou, Z. Huang, and A. Yuille. Are you talking to a machine? dataset and methods for multilingual image question answering. In NIPS, 2015. 1, 2
[11] Y. Goyal, A. Mohapatra, D. Parikh, and D. Batra. Towards Transparent AI Systems: Interpreting Visual Question Answering Models. In ICML Workshop on Visualization for Deep Learning, 2016. 4

Pseudo Periodic Synthetic Time Series数据集

发表于 2018-06-24

提供者:刘晓

地址:http://kdd.ics.uci.edu/databases/synthetic/synthetic.html

简介

该数据集旨在测试时间序列数据库中的索引方案。数据显示高度周期性,但从未完全重复。此功能旨在挑战索引任务。

数据集描述

数据类型

数据是一个合成的单变量时间序列。

数据特征

该数据集旨在测试时间序列数据库中的索引方案。这是一个比任何已发表的研究中都使用的数据集要大得多的数据集(我们目前知道)。它包含一百万个数据点。数据被分成10个部分以便于测试(见下文)。我们建议使用10万个数据点部分中的9个构建索引,并从第10部分中随机提取查询形状。 (一些以前发布的工作似乎使用了也用于构建索引结构的查询,这会产生乐观的结果)数据很有趣,因为它们具有不同分辨率的结构。通过独立调用函数生成的10个部分中的每一部分:

rand(x)产生零和x之间的随机整数。
数据显示高度周期性,但从未完全重复。此功能旨在挑战索引结构。时间序列如下图所示:


数据格式

数据存储在一个ASCII文件中。有10列,10万行。所有的数据点都在-0.5到+0.5的范围内。 行由回车,空格分隔。

数据集下载

synthetic.data.gz (5.0M; 16.2M uncompressed)

相关论文

[1] Eamonn J. Keogh, Michael J. Pazzani: (1999). An indexing scheme for similarity search in large time series databases. The 11th International Conference on Scientific and Statistical Database Management. Cleveland, Ohio.
[2] L Yang,D Neagu. A New Approach and Its Applications for Time Series Analysis and Prediction Based on Moving Average of n th -Order Difference. 2012.
[3] S Basterrech,G Rubino,V Snášel. Sensitivity analysis of echo state networks for forecasting pseudo-periodic time series. 2016.
[4] M Small,RG Harrison,CK Tse. A Surrogate Test for Pseudo‐periodic Time Series Data. 2002.

Australian Sign Language signs数据集

发表于 2018-06-24

提供者:刘晓

地址:http://kdd.ics.uci.edu/databases/auslan/auslan.html

简介

这些数据由Auslan(Australian Sign Language,澳大利亚手语)标志样本组成。从五个签名者那里收集了95个标志的例子,共有6650个标志样本。

数据集描述

  • 数据类型: 多变量时间序列(multivariate time series)。
  • 数据特征
    • 数据来源:数据的来源Nintendo PowerGlove的原始测量数据。它通过PowerGlove串行接口连接到Silicon Graphics 4D / 35G工作站。
    • 这款glove绝对属于”cheap and nasty”的范畴。位置信息是根据从glove发射器到位于监视器顶部的3个麦克风“L-Bar”的超声波辐射进行计算的。glove上有两个发射器和三个接收器。这允许计算4条信息:x(左/右),y(上/下),z(后/前)和roll(手掌向上或向下?)。 x,y和z以8位精度进行测量。 “x,y,z”不应该被认为是正常的三维正交基。特别地,z方向上的1个单位在x或y方向上与1个单位的距离不相似。这些x,y,z位置相对于手掌放在坐着的签名者大腿上时的校准点。卷(Roll)是4位。
    • 这些数据容易受随机超声噪声引起的偶然“尖峰”的影响。已经发现中值滤波器对于解决这个问题是有益的。
    • 手指弯曲是由前四个手指上的导电弯曲传感器产生的。值在0(直线)和3(完全弯曲)之间变化。精度是2位。glove会在这些弯曲传感器上自动应用迟滞过滤器。充其量,这些测量值应该被认真对待。
  • 特别说明: “adam”数据集按照固定顺序进行采样 - 这意味着它们受到疲劳效应等影响。所有其他数据集都以随机顺序进行采样。 “waleed”和“stephen”数据集包含以“cal-”开头的符号。这些被认为是一种校准手段,但效果不佳。

  • 预处理: 所呈现的数据是没有过滤的原始数据。

  • 变量描述:

  • 异常: x,y,z值偶尔会丢失。这些可以使用中值滤波器轻松修复。

  • 其他相关信息: 每个实例的平均帧数是51,但从30到102不等。
  • 数据格式: 数据以逗号分隔的文件包含上述所有属性。每个符号样本都存储在一个文件中。目录层次如下所示:
    • 每个签名者都在一个单独的目录中。
    • 每个来自签名者的会话都在一个子目录中。每个会话都由一个数字表示。
    • 每个样本都位于一个文件中,该文件通过附加了该标记样本编号的样本进行命名。
    • 文件名表示类。

数据集下载

  • allsigns.tar.gz (3.0M; 59.0M uncompressed)

  • 更多的数据和信息可以在这里找到。

相关论文

[1] M. W. Kadous, GRASP: Recognition of Australian Sign Language using Instrumented Gloves, Honours thesis, School of Computer Science and Engineering, University of New South Wales, 1995.
[2] Kadous, M. W. Learning Comprehensible Descriptions of Multivariate Time Series. In Bratko, I., and Dzeroski, S., eds. Machine Learning: Proceedings of the Sixteenth International Conference, Morgan Kaufmann Publishers, San Francisco, CA.

12…22

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4