世界语言资源平台

  • 首页
  • 标签
  • 归档

中研院近代汉语标记语料库

发表于 2018-05-25

提供者:朱述承
访问地址:http://lingcorpus.iis.sinica.edu.tw/early/

概述

“中央研究院近代汉语标记语料库”是“中央研究院古汉语语料库”(Academia Sinica Ancient Chinese Corpus)的一个次语料库。“中央研究院古汉语语料库”是应汉语史研究需求而建构的语料库。这个语料库又可依是否经过断词及加标词类而分成两类,即未加标的素语料库以及有标注的标记语料库。目前素语料库所收集的语料已含盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的重要语料,并已陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供线上检索。“中央研究院古汉语语料库”的建构始于一九九0年,创始者为黄居仁(语言所研究员)、谭朴森(英国伦敦大学亚非学院教授)、陈克健(资讯所研究员)、魏培泉(语言所研究员)等,最初的经费来源为蒋经国基金会及中央研究院历史语言研究所,目标是收集上古汉语的素语料。素语料库的构建自此未曾停歇,语料也由上古汉语扩充到中古汉语和近代汉语。本语料库的查询功能和断词标类的标准,与“中央研究院现代汉语平衡语料库”大致相同,但也有其特色:如在查询功能方面,可以在显示词项及其词类的同时,显示例句的出处,便于历史语法的研究者使用;在断词标类的凭准方面,也因着眼不同而作了一些变动,如动补结构标示的较详尽即为一例。

使用限制

院内检索限制两万行资料,院外检索限两千行资料。

功能简介

透过这个语料库的介面可以进行下列几项工作:
一、检索:首先进入“自订语料库”的画面,设定文献的搜寻范围,接著进入“内容检索”与“进阶处理”的画面,在自订语料库范围内针对词项、词头、词尾、词类、词类特征、重叠词型态……等进行检索以及进阶检索;
二、显示:有两种资料,“在关键词检索典”画面上,将检索到的资料依句显示在屏幕上,“文本”的画面出现该关键词所出现的该章回段落;
三、过滤:依照使用者设定的条件筛选语料;
四、词类累计:统计每个词类出现的数量;
五、统计共现率(collocation);
六、排序:针对使用者设定的条件将语料依序排列。

文献内容

敦煌变文集新书 祖堂集 大唐三藏取经诗话 新刊大宋宣和遗事 永乐大典戏文三种
五代史平话 全相平话五种 关汉卿戏曲集 元刊杂剧三十种 老乞大谚解
朴通事谚解 水浒传 西游记 金瓶梅 平妖传
醒世姻缘 儒林外史 红楼梦 岐路灯

LDOS-CoMoDa电影数据集

发表于 2018-05-20

提供者:杜成玉
下载地址:http://www.lucami.org/index.php/research/ldos-comoda-dataset/?lang=en

简介

数据来源:https://blog.csdn.net/czzffff/article/details/44179087
JRC Names 是一个跨语言实体名称语料库,该语料库包含了大量跨语言人名和组织名称(称之为“实体”),包括不同语言的实体名称,包括汉语、英语、拉丁语、希腊语、阿拉伯语、斯拉夫语、日本语等。2016年之后,JRC Names还关联了其它附加信息,如每个实体在每种语言中出现的频率和时间段等。



相关论文

1.Košir A, Odic A, Kunaver M, et al. Database for contextual personalization[J]. Elektrotehniški vestnik, 2011, 78(5): 270-274.
2.Odic A, Tkalcic M, Tasic J F, et al. Relevant context in a movie recommender system: Users’ opinion vs. statistical detection[J]. ACM RecSys, 2012, 12.
3.Zheng Y, Burke R, Mobasher B. Splitting approaches for context-aware recommendation: An empirical study[C]//Proceedings of the 29th Annual ACM Symposium on Applied Computing. ACM, 2014: 274-279.
4.Odic A, Tkalcic M, Tasic J F, et al. Personality and Social Context: Impact on Emotion Induction from Movies[C]//UMAP Workshops. 2013.

Netflix 电影评价数据

发表于 2018-05-20

提供者:杜成玉
下载地址:http://pan.baidu.com/s/1dDtmbW9

简介

数据来源:https://blog.csdn.net/czzffff/article/details/44179087

相关论文

1.Koren Y, Bell R, Volinsky C. Matrix factorization techniques for recommender systems[J]. Computer, 2009, 42(8).
2.Bell R, Koren Y, Volinsky C. Modeling relationships at multiple scales to improve accuracy of large recommender systems[C]//Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2007: 95-104.
3.Koren Y. Factorization meets the neighborhood: a multifaceted collaborative filtering model[C]//Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2008: 426-434.

推特情感分析数据集

发表于 2018-05-20

提供者:杜成玉
下载地址:https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/#data_dictionary

简介

数据来源:https://zhuanlan.zhihu.com/p/35455475
涉及种族主义和性别歧视的偏激言论已成为 Twitter 的难题,因此将这类推文与其它推文分开已十分重要。在这个实际问题中,我们提供的 Twitter 数据包含普通言论和偏激言论。作为数据科学家,你的任务是确定哪些推文是偏激型推文,哪些不是。
大小:3 MB
数量:31962 篇推文

相关论文

1.Go A, Huang L, Bhayani R. Twitter sentiment analysis[J]. Entropy, 2009, 17: 252.

COIL-100

发表于 2018-05-18

提供者:刘唯

简介

COIL-100 数据集是彩色图片集合,包含对 100 个物体从不同角度的拍摄,每隔 5 度拍摄一副图像,每个物体 72 张图像。每张图像大小进行了统一处理为 128x128。

数据来源

http://www.cs.columbia.edu/CAVE/software/softlib/coil-100.php

文件大小

131.61 Mb

相关论文

[1]Deepak Khosla,David J. Huber,Christopher Kanan. A neuromorphic system for visual object recognition[J]. Biologically Inspired Cognitive Architectures,2014,8.
[2]N. Mohanty,A. Lee-St. John,R. Manmatha,T.M. Rath. Shape-Based Image Classification and Retrieval[J]. Handbook of Statistics,2013,31.
[3]Toru Tamaki,Toshiyuki Amano,Kazufumi Kaneda. Representing images of a rotating object with cyclic permutation for view-based pose estimation[J]. Computer Vision and Image Understanding,2009,113(12).
[4]David Emms,Richard C. Wilson,Edwin R. Hancock. Graph matching using the interference of discrete-time quantum walks[J]. Image and Vision Computing,2008,27(7).
[5]Kazuhiro Hotta. Pose independent object classification from small number of training samples based on kernel principal component analysis of local parts[J]. Image and Vision Computing,2008,27(9).

Image Net

发表于 2018-05-18

提供者:刘唯

简介

Imagenet数据集有1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注,具体信息如下: 1)Total number of non-empty synsets: 21841 2)Total number of images: 14,197,122 3)Number of images with bounding box annotations: 1,034,908 4)Number of synsets with SIFT features: 1000 5)Number of images with SIFT features: 1.2 million
Imagenet数据集是目前深度学习图像领域应用得非常多的一个领域,关于图像分类、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集文档详细,有专门的团队维护,使用非常方便,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。

下载地址

http://www.image-net.org/about-stats

相关论文

[1]Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Image Net: A Large-Scale Hierarchical Image Database. In: CVPR (2009)
[2] A. Artale, B. Magnini, and S. C. Wordnet for italian and its use for lexical discrimination. In AI*IA97, pages 16–19, 1997.
[3] O. Boiman, E. Shechtman, and M. Irani. In defense of nearest-neighbor based image classification. In CVPR08, pages 1–8, 2008.
[4] B. Collins, J. Deng, K. Li, and L. Fei-Fei. Towards scalable dataset construction: An active learning approach. In ECCV08, pages I: 86–98, 2008.
[5] C. Fellbaum. Word Net: An Electronic Lexical Database. Bradford Books, 1998.
[6] R. Fergus, L. Fei-Fei, P. Perona, and A. Zisserman. Learning object categories from google’s image search. In ICCV05, pages II: 1816–1823, 2005.
[7] M. Fink and S. Ullman. From aardvark to zorro: A benchmark for mammal image classification. IJCV, 77(1-3):143–156, May 2008.
[8] G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. Technical Report 7694, Caltech, 2007.

SUN Database

发表于 2018-05-18

提供者:刘唯

简介

SUN 是一个场景内容理解图像数据,包括 899个不同场景下的 130519张 场景图像。

数据来源

http://vision.princeton.edu/projects/2010/SUN/

文件类型

zip压缩包

文件大小

38.18 Gb

相关论文

[1]Xiao, J., Hays, J., Ehinger, K.A., Oliva, A., Torralba, A.: SUN database: Large-scale scene recognition from abbey to zoo. In: CVPR (2010)
[2]Ahonen, T., Matas, J., He, C., & Pietikäinen, M., et al. (2009). Rotation invariant image description with local binary pattern histogram fourier features. In Scandinavian Conference on Image Analysis.
[3]Arbelaez, P., Fowlkes, C., & Martin, D. (2007). The Berkeley segmentation dataset and benchmark. Retrieved from http://www.eecs.berkeley.edu/Research/Projects/CS/vision/bsds.
[4]Arbelaez, P., Maire, M., Fowlkes, C., & Malik, J. (2011). Contour detection and hierarchical image segmentation. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 33(5),898–916.
[5]Barnard, K., Duygulu, P., Forsyth, D., De Freitas, N., Blei, D. M., &Jordan, M. I. (2003). Matching words and pictures. The Journal of Machine Learning Research, 3, 1107–1135.
[6]Barriuso, A., & Torralba, A. (2012). Notes on image annotation.Retrieved from ar Xiv:1210.3448.

Amazon食品评论数据

发表于 2018-05-18

提供者:刘唯

简介

截止2012年10月份在Amazon网站上568454条食品评论数据,包括用户、评论内容、评论食品、食品评分等数据。

数据来源

https://www.kaggle.com/snap/amazon-fine-food-reviews

文件大小

230.79 Mb

香港粤语语料库

发表于 2018-05-18

提供者:朱述承
访问地址:http://compling.hss.ntu.edu.sg/hkcancor/

概述

香港粤语语料库收录了在1997年3月至1998年8月期间修录整理的粤语谈话内容。本语料库修录了93段2至4人的对话(其中51段是在交谈时录音所得﹐另外42段由电台节目剪辑而成)和1段个人独白﹐修录词语合计约有230,000个。语料以词语作单位切分﹐并标上发音及词性。发音部份使用了香港语言学学会(LSHK)的粤拼标准。

标签集

No. Tag POS (in Chinese) POS (in English)
1 Ag 形语素 Adjective Morpheme
2 a 形容词 Adjective
3 ad 副形词 Adjective as Adverbial
4 an 名形词 Adjective with Nominal Function
5 Bg 区别语素 Non-predicate Adjective Morpheme
6 b 区别词 Non-predicate Adjective
7 c 连词 Conjunction
8 Dg 副语素 Adverb Morpheme
9 d 副词 Adverb
10 e 叹词 Interjection
11 f 方位词 Directional Locality
12 g 语素 Morpheme
13 h 前接成分 Prefix
14 i 成语 Idiom
15 j 简略语 Abbreviation
16 k 后接成分 Suffix
17 l 习用语 Fixed Expression
18 Mg 数语素 Numeric Morpheme
19 m 数词 Numeral
20 Ng 名语素 Noun Morpheme
21 n 名词 Common Noun
22 nr 人名 Personal Name
23 ns 地名 Place Name
24 nt 机构团体 Organisation Name
25 nx 外文字符 Nominal Character String
26 nz 其它专名 Other Proper Noun
27 o 拟声词 Onomatopoeia
28 p 介词 Preposition
29 Qg 量语素 Classifier Morpheme
30 q 量词 Classifier
31 Rg 代语素 Pronoun Morpheme
32 r 代词 Pronoun
33 s 处所词 Space Word
34 Tg 时间语素 Time Word Morpheme
35 t 时间词 Time Word
36 Ug 助语素 Auxiliary Morpheme
37 u 助词 Auxiliary
38 Vg 动语素 Verb Morpheme
39 v 动词 Verb
40 vd 副动词 Verb as Adverbial
41 vn 名动词 Verb with Nominal Function
42 w 标点符号 Punctuation
43 x 非语素字 Unclassified Item
44 Yg 语气语素 Modal Particle Morpheme
45 y 语气词 Modal Particle
46 z 状态词 Descriptive

相关论文

K. K. Luke and May L.Y. Wong (2015) The Hong Kong Cantonese Corpus: Design and Uses Journal of Chinese Linguistics (to appear).

广州话口语有声语料库

发表于 2018-05-18

提供者:朱述承
访问地址:https://huayu.jnu.edu.cn/corpus6/Index.aspx

概述

语料源自广州电台2010年间制作的清谈或访谈节目。共选取9个节目,节目总长度为21小时,经过文字转写,共获取约31万字的文本语料。

检索功能

语料库提供文本检索及文本对应的音频。使用者可通过字、词、词组搜索。搜索结果显示含搜索对象的语料条目数量,点击每条语料左边的“听该段录音”,可获取该条语料的完整文本和音频、该条语料所处的上下文文本、所在节目名称、主持人年龄段信息、及文本符号标记注释等。

文本使用粤语字转写,有一些没有对应文字却经常使用偏旁造字的合成字,如:<口 格 > 、 <扌罗> ,按习惯使用,其余没有对应文字的用宽式IPA注音。由于人力条件的限制,没有对文本进行精细的词性、句式、语音标注,也没有对应的普通话翻译。关于说话人的年龄信息,只限于标记主持人,节目嘉宾众多,有的节目里有若干分钟的交通、资讯信息插播,也只作了文字转写,人物信息等无法一一标记。

1…91011…22

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4