世界语言资源平台

  • 首页
  • 标签
  • 归档

北京口语语料库

发表于 2018-05-18

提供者:朱述承
访问地址:http://app.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

概述

“北京口语调查”课题采用谈话和录音的方式,按照社会语言学的抽样原则,在北京城区和郊区共调查了近500个在北京生长的人,得到录音磁带共210盘。课题组经审查确定其中374人120盘录音带的材料为有效材料。课题组对这374人120盘录音带的材料进行整理加工,取得了剪辑录音带、转写文本、语料库等一系列成果。
经过多年辗转,课题组当年未处理的约100多人(除了374个有效说话人以外的调查对象)的90盘(210-120=90)录音带,除了6个说话人的录音材料以外,下落不明。在已处理的374人120盘录音带中,有1盘(4个说话人)的声音材料已经完全损坏,今存370人119盘录音带。精加工的102人的40万字转写文本今存有电子文件及其打印件。其余272人的130万字转写文本的电子文件下落不明,只有打印件。带词性标注的文件下落不明,带汉语拼音标注的文件显示为乱码,已无法使用。语料库在现在的电脑系统里已无法使用。
北京语言大学语言研究所自2001年建立以来,把重建完整、科学、实用的“北京口语语料”作为一项重要工作。2004年,“当代北京话应用研究”课题(曹志耘主持)获得北京市哲学社会科学“十五”规划项目立项。在随后的几年里,课题组开展了下列工作:清理旧资料,录入无电子文件的语料,听录音校对文字,重新统一编排,把录音带转为数字形式,进行话语分析标注和语音特征标注,建立“文本-声音”链接,试用检索软件,等,最终建成完整版“北京口语语料”,并完成一批相关成果。完整版“北京口语语料”的基础语料包括:(1)由370人119盘录音带转换成的有声语料文件(wav格式),(2)与录音文件相对应的184万字的转写文本(word文件。其中有4人的语料缺录音)。

功能

1.依据说话人的属性和话题,查询某一字、词、短语或结构在北京口语语料中的使用情况。说话人的属性包括出生年份、性别、民族、地区、文化程度、职业,话题包括居住条件、家庭、学习、工作、生活、个人经历等。
系统界面
系统界面
2.查询结果既显示语料,又显示说话人的属性和话题。
3.可以对查询结果进行自定义排序,系统默认依次按照出生年份、性别、民族、文化程度排序。
4.可以对查询结果进行相关统计。

中国汉英平行语料大世界

发表于 2018-05-18

提供者:朱述承
访问地址:http://corpus.usx.edu.cn/

概述

中国汉英平行语料大世界由绍兴文理学院外国语学院建设,包括文学作品及法律法规两个大类。其中,文学作品包括鲁迅小说、伟人作品、传统典籍、四大名著、其他名篇;法律法规包括两岸三地中国大陆、香港及台湾的法律法规英汉平行语料。

使用说明

1.确定搜索范围:
全部选用:
点击“全选”键。
个别选用:
单个选用:鼠标点击欲使用的文件名。
多个选用:Ctrl键+鼠标逐个点击欲使用的文件名。
2.输入检索词:
“检索词”框内输入检索词一个或多个(空格隔开),既可中文(简繁皆宜),亦可英文;点击“提交”。
3.提高检索精度
在“但不包括以下检索词”框内输入需排除的一个或多个检索词(空格隔开)。
4.检索结果使用
检索结果可以选中复制

相关论文

Sun, H. & Yang, J. (2009, December 25). Collected Chinese Documents Aligned with English versions at Sentential Level.

处理单词和物体时的fMRI图像数据

发表于 2018-05-18

提供者:刘晓

地址:https://openfmri.org/dataset/ds000107/

简介

处理单词和物体时的fMRI图像数据,是OpenfMRI项目中名称为 ‘fMRI Word and object processing’ 的数据,编号为 ds000107 。 OpenfMRI项目为研究人员提供共享和使用MRI实验数据。OpenfMRI中的所有MRI数据都遵循BIDS元数据标准,并使用统一的命名规则。

文件大小

3.42 Gb

[1] 李勇,谢鹏,吕发金,罗天友,牟君. 汉英双语者双语脑激活模式fMRI研究, 2006
[2] 闫彩凤. 基于图片刺激的fMRI数据模式分类研究——负激活和信息映射的特征提取分类方法, 2012
[3] 柯维旭,李俊雄.人类大脑皮层对人物肖像和风景识别的fMRI研究, 2004

MovieLens 100k电影推荐数据集

发表于 2018-05-18

提供者:刘晓

地址:https://openfmri.org/dataset/ds000107/

简介

处理单词和物体时的fMRI图像数据,是OpenfMRI项目中名称为 ‘fMRI Word and object processing’ 的数据,编号为 ds000107 。 OpenfMRI项目为研究人员提供共享和使用MRI实验数据。OpenfMRI中的所有MRI数据都遵循BIDS元数据标准,并使用统一的命名规则。

文件大小

3.42 Gb

Amazon 无锁手机评论数据

发表于 2018-05-18

提供者:刘晓

地址:https://www.kaggle.com/PromptCloudHQ/amazon-reviews-unlocked-mobile-phones

简介

Amazon 无锁手机用户评论数据是一个商品评论数据,抓取了40万条亚马逊网站上无锁移动手机的价格、用户评分、评论等数据。
数据内容:

  • Product Tile
  • Brand
  • Price
  • Rating
  • Review text
  • Number of people who found the review helpful

文件类型

zip压缩包

文件大小

35.00 Mb

Cdiscount商品图像分类竞赛

发表于 2018-05-18

提供者:刘晓

地址:https://www.kaggle.com/c/cdiscount-image-classification-challenge

简介

Cdiscount 是法国一家电子商务公司,竞赛的任务是构建一个图像分类模型,将某个产品图片分类到对应的产品种类上。每类产品包含多个产品图片,数据总共包括 9百万个产品,1千5百万张分辨率为180x180的图片,超过5000产品类别。

文件描述

  • train.bson - (Size: 58.2 GB)每个产品包含有7 069,896个字典。每个字典都包含一个产品id (key: _id),产品的类别id (key: category_id),以及1-4个图像,存储在一个列表中(key: imgs)。每个图像列表包含一个单个字典,每个图像使用的格式是:{‘picture’: b’…二进制串……}。二进制字符串对应于JPEG格式的图像的二进制表示形式。这个内核提供了一个处理数据的示例。
  • train_example.bson -包含训练数据的前100条记录。因此,您可以在下载整个集合之前开始研究数据。
  • test.bson - (Size: 14.5 GB) 包含一份与train.bson相同格式的1,768,182个产品的清单,但不包括类别category_id。竞争的目的是根据每个产品id (_id)的图片来预测正确的category_id。在私有测试拆分中存在的category_id也都存在于公共测试拆分中。
  • category_names.csv -显示产品分类的层次结构。每个category_id在法语中都有相应的level1、level2和level3。category_id对应于目录树的最低层。这种分层数据可能是有用的,但它对于构建模型和预测是不必要的。所有绝对必要的信息都是在train.bson中找到的。

文件大小

60.54Gb

文件类型

多个tar压缩文件

TriviaQA 阅读理解数据集

发表于 2018-05-17

提供者:卢梦依
下载地址:http://nlp.cs.washington.edu/triviaqa/

简介

数据集概述

TriviaQA是一个阅读理解数据集,包含超过650K的问题-答案-证据三元组。TriviaQA包括由trivia爱好者撰写的95K问答组,独立收集证据文档,平均6个问题,为回答问题提供高质量的文档。
TriviaQA具有相对复杂的组合问题,在问题和相应的答案证据句之间有相当多的句法和词汇的可变性,需要更多的交叉语句推理才能找到答案。

文件

大小:7.2G

示例:

相关论文

1.Mandar Joshi, Eunsol Choi, Daniel Weld, Luke Zettlemoyer. TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension
In Association for Computational Linguistics (ACL) 2017, Vancouver, Canada.
2.Daskalakis C, Dikkala N, Kamath G. Concentration of Multilinear Functions of the Ising Model with Applications to Network Data[J]. 2017.
3.Zhao J, Xiong L, Jayashree K, et al. Dual-Agent GANs for Photorealistic and Identity Preserving Profile Face Synthesis[C]// Conference on Neural Information Processing Systems. 2017.
4.He B, De S C, Mitliagkas I, et al. Scan Order in Gibbs Sampling: Models in Which it Matters and Bounds on How Much[J]. Adv Neural Inf Process Syst, 2016.
5.Chu X, Ouyang W, Li H, et al. CRF-CNN: Modeling Structured Information in Human Pose Estimation[J]. 2016.

birkbeck 错误拼写数据集

发表于 2018-05-17

提供者:卢梦依
下载地址:http://www.dcs.bbk.ac.uk/~ROGER/corpora.html

简介

数据集概述

birkbeck文件包含36133个拼写错误的6136个单词。它是由Birkbeck拼写错误语料库的母语者部分(英国或美国作家)所犯的错误合并而成的,这是一组从不同来源收集的拼写错误的文件,可以作为单独的文件,从牛津文本档案中获得详细的文档。它包括拼写测试和自由写作的错误,主要来自在校学生、大学生或成人识字学生。其中大部分是手写的。

文件

大小:总共包含42269个单词,其中是6136个正确的单词,36133个错误拼写的单词。

相关论文

1.Lee L H, Yu L C, Chang L P. Overview of the NLP-TEA 2015 Shared Task for Chinese Grammatical Error Diagnosis[C]// The Workshop on Natural Language Processing Techniques for Educational Applications. 2015.
2.Wu X, Huang P, Wang J, et al. Chinese Grammatical Error Diagnosis System Based on Hybrid Model[C]// The Workshop on Natural Language Processing Techniques for Educational Applications. 2015:117-125.
3.Zhao Y, Komachi M, Ishikawa H. Improving Chinese Grammatical Error Correction with Corpus Augmentation and Hierarchical Phrase-based Statistical Machine Translation[C]// The Workshop on Natural Language Processing Techniques for Educational Applications. 2015:111-116.
4.Wu S H, Chen P L, Chen L P, et al. Chinese Grammatical Error Diagnosis by Conditional Random Fields[C]// The Workshop on Natural Language Processing Techniques for Educational Applications. 2015:7-14.

Question-Answer Dataset

发表于 2018-05-17

提供者:卢梦依
下载地址:http://www.cs.cmu.edu/~ark/QA-data/

简介

数据集概述

这个页面提供了一个链接,链接到维基百科文章的语料,从他们那里获得了人工生成的factoid问题,并为这些问题提供了人工生成的答案,供学术研究使用。这些数据是由诺亚·史密斯、迈克尔·海尔曼、丽贝卡·华、谢伊·科恩、凯文·格普勒以及2008年至2010年在卡内基梅隆大学和匹兹堡大学的许多学生收集的。

文件

大小:7.2G

示例:

相关论文

1.Mandar Joshi, Eunsol Choi, Daniel Weld, Luke Zettlemoyer. TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension
In Association for Computational Linguistics (ACL) 2017, Vancouver, Canada.
2.Daskalakis C, Dikkala N, Kamath G. Concentration of Multilinear Functions of the Ising Model with Applications to Network Data[J]. 2017.
3.Zhao J, Xiong L, Jayashree K, et al. Dual-Agent GANs for Photorealistic and Identity Preserving Profile Face Synthesis[C]// Conference on Neural Information Processing Systems. 2017.
4.He B, De S C, Mitliagkas I, et al. Scan Order in Gibbs Sampling: Models in Which it Matters and Bounds on How Much[J]. Adv Neural Inf Process Syst, 2016.
5.Chu X, Ouyang W, Li H, et al. CRF-CNN: Modeling Structured Information in Human Pose Estimation[J]. 2016.

文本简化数据集

发表于 2018-05-17

提供者:卢梦依
下载地址:http://www.cs.pomona.edu/~dkauchak/simplification/

简介

数据集概述

在本文中,我们研究了句子简化的任务,旨在通过结合更容易理解的词汇和句子结构来减少句子的阅读复杂性。我们引入了一组新的数据集,它将英文维基百科与简单的英文维基百科结合起来,其数量级比以前任何一个被检查过的句子都要大。这些数据包含了全部的简化操作,包括重新措辞、重新排序、插入和删除。我们提供对该语料库的分析,以及使用基于短语的翻译方法进行简化的初步结果。 我们已经生成了一组数据集,由137K排列的简化/不简化的句子对配对文件,然后从英语维基百科的句子和相应的文档和句子从简单的英语维基百科。简单的英文维基百科包含针对儿童和英语学习者的文章,并包含类似于英语维基的内容。

文件

大小:包含137K句子对

相关论文

1.Coster W, Kauchak D. Simple English Wikipedia: A New Text Simplification Task.[C]// The, Meeting of the Association for Computational Linguistics: Human Language Technologies, Proceedings of the Conference, 19-24 June, 2011, Portland, Oregon, Usa - Short Papers. DBLP, 2011:665-669.
2.Regina Barzilay and Noemie Elhadad. 2003. Sentence alignment for monolingual comparable corpora. In Proceedings of EMNLP
3.Raman Chandrasekar and Bangalore Srinivas. 1997. Automatic induction of rules for text simplification. In Knowledge Based Systems.
4.David Vickrey and Daphne Koller. 2008. Sentence simplification for semantic role labeling. In Proceedings of ACL
5.Dan Klein and Christopher Manning. 2003. Accurate unlexicalized parsing. In Proceedings of ACL

1…101112…22

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4