世界语言资源平台

  • 首页
  • 标签
  • 归档

Urdu Summary Corpus

发表于 2018-06-16

提供者:朱述承
访问地址:https://github.com/humsha/USCorpus

简介

乌尔都语汇总语料库包括从各种来源收集的50篇文章。从原始的HTML文档中只保留了未格式化的内容文本,删除了所有其他内容。我们提供这50篇文章的摘要。规范化后,我们在文章上进一步应用了不同的NLP工具,以生成词性标注,形态分析,词形化和词干化的文章。

操作

Commands:
Unzip USCTools.zip

Open Console

Go to USCTools directly typing: cd USCTools

For Normalization
$ java -cp bin USCTools normalize input.txt output.txt

For Lemmatization
$ java -cp bin USCTools lemmatize input.txt output.txt

For Morphological analysis
$ java -cp bin USCTools morph_analysis input.txt output.txt

For stemming by Assas-Band
$ java -cp bin USCTools stemming input.txt output.txt

For POS tagging
$ java -cp bin USCTools tagging input.txt output.txt

相关论文

1 Q.-u.-A. Akram, A. Naseer, and S. Hussain. Proceedings of the 7th Workshop on Asian Language Resources (ALR7), chapter Assas-band, an Affix- Exception-List Based Urdu Stemmer, pages 40–47. Association for Computational Linguistics, 2009.
2 A. Gulzar. Urdu normalization utility v1.0. Technical report, Center for Language Engineering, Al-kwarzimi Institute of Computer Science (KICS), University of Engineering, Lahore, Pakistan. http://www.cle.org.pk/software/langproc/urdunormalization.htm, 2007.
3 M. Humayoun, H. Hammarström, and A. Ranta. Urdu morphology, orthography and lexicon extraction. CAASL-2: The Second Workshop on Computational Approaches to Arabic Script-based Languages, LSA Linguistic Institute. Stanford University, California, USA., pages 21–22, 2007. http://www.lama.univ-savoie.fr/ humayoun/UrduMorph/.
4 B. Jawaid, A. Kamran, and O. Bojar. A tagged corpus and a tagger for urdu. In N. C. C. Chair), K. Choukri, T. Declerck, H. Loftsson, B. Maegaard, J. Mariani, A. Moreno, J. Odijk, and S. Piperidis, editors, Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14), Reykjavik, Iceland, may 2014. European Language Resources Association (ELRA). https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0023-65A9-5

English-Urdu Parallel Corpus

发表于 2018-06-16

提供者:朱述承
访问地址:http://ufal.mff.cuni.cz/umc/005-en-ur/

简介

UMC005英语 - 乌尔都文是英文和乌尔都语文本的平行语料库,带有句子对齐。语料库可以用于统计机器翻译的实验。

文本来自四个不同的来源:

古兰经
圣经
Penn Treebank(华尔街日报)
Emille语料库
我们提供古兰经和圣经的宗教文本供直接下载。由于许可原因,Penn和Emille文本无法自由重新发布。但是,如果您已经拥有原始语料库的许可证,则我们可以提供脚本来重新创建磁盘上的数据。我们的修改包括但不限于以下内容:

纠正乌尔都语翻译和Emille文本的手动句子对齐。
手动纠正其他语料库的句子对齐。
我们的数据拆分(培训 - 开发 - 测试),以便我们发布的实验可以被复制。
Tokenization(可选,但需要重现我们的实验)。
例子的标准化(可选)欧洲与乌尔都语数字,欧洲与乌尔都语标点符号,删除乌尔都语变音符号。

文件格式

UMC005以纯文本文件的形式发布(Unicode UTF-8,Unix换行符)。

一个文件对应一种语言(英语/乌尔都语)的源文件(古兰经/圣经)的一部分(培训/开发/测试)。相同源和部分的英文和乌尔都语版本具有相同的行数,而行对应于文本的一个部分,通常是一个句子,并且两个相同编号的行是彼此的翻译。

相关论文

Bushra Jawaid, Daniel Zeman: Word-Order Issues in English-to-Urdu Statistical Machine Translation.

Uppsala Persian Corpus

发表于 2018-06-16

提供者:朱述承
访问地址:http://stp.lingfil.uu.se/~mojgan/UPC.html

简介

乌普萨拉波斯语语料库(UPC)(塞拉吉,2015年,第3章,第68-81页)是一个庞大的,免费提供的波斯语语料库。该语料库是Bijankhan语料库(Bijankhan,2004)的修改版本,增加了句子分段和一致的标记,其中包含2,704,028个标记,并注释了31个词性标记。

相关论文

  1. Bijankhan Mahmood. 2004. The Role of the Corpus in Writing a Grammar: An Introduction to a Software . Iranian Journal of Linguistics 19.
  2. Seraji, Mojgan. 2015. Morphosyntactic Corpora and Tools for Persian. Doctoral dissertation, Uppsala University. Studia Linguistica Upsaliensia 16.

Corpus of the Contemporary Lithuanian Language

发表于 2018-06-16

提供者:朱述承
访问地址:http://donelaitis.vdu.lt/main_en.php?id=4&nr=1_2

简介

当代立陶宛语在线语料库包含1.02亿个词,它是迄今为止最大的立陶宛语语料库。该语料库是旨在代表当前立陶宛语的文本集合。语料库提供特殊程序,可以进行语言单位的语言学,社会学和其他分析。

该语料库是一般的而不是专门的。它是根据阅读而编写的,而不是发布趋势。它不断增长,由全文组成,而不是片段。语料库的设计遵循其他欧洲语言(英语,德语,丹麦语,捷克语等)的一些语料库的原则。

该语料库由立陶宛独立时期(1990年以来)的印刷材料组成。该语料库旨在尽可能广泛地代表当代最广泛的立陶宛文字。该语料库的最大部分由普通出版社(地区和全国性报纸),大众出版社和特刊(专业报刊杂志)组成。这些文本是为一般读者和专家准备的。其余的语料库包括小说,回忆录,其他文献(科学和流行)以及各种官方文本。

相关论文

Marcinkevičienė R. Kompiuteriais kuriame tekstyną. – Darbai ir Dienos, 1996, Nr. 3, P. 257–258.
Marcinkevičienė R. Tekstynų lingvistika ir lietuvių kalbos tekstynas. – Lituanistica, 1997, Nr. 1 (29), P. 58–78.
Marcinkevičienė R. Klausimas dėl klausimo, arba ką gali kompiuterinis tekstynas. – Darbai ir Dienos, 1997, Nr. 5, P. 19–37.
Marcinkevičienė R. Parallel Corpora and Bilingual Lexicography. In: Germanic and Baltic Linguistic Studies and Translation. Proceedings of the International Conference, Vilnius, 22–24 April 1998. Ed. by A. Usonienė, Vilnius, 1998, P. 40–48.
Marcinkevičienė R. Atminties labirintuose. Kognityvinės ir tekstynų lingvistikos sąveika. – Darbai ir Dienos, 1999, Nr. 10 (19), P. 109–124.
Marcinkevičienė R. Tekstynas – tarpdalykinių ryšių sankirtos taškas. – Tarpdisciplininiai ryšiai lituanistikoje, Vilnius, 1999, P. 159–164.
Marcinkevičienė R. Hapax Legomena as a Platform for Text Alignment. – In Proceedings of the Third European Seminar Translation Equivalence, Montecatini Terme, Italy, October 16–18, 1997, P. 125–137.
Marcinkevičienė R. Tekstynų lingvistika TEORIJA IR PRAKTIKA. – Darbai ir Dienos, 2000, Nr. 24, P. 7–64.
Marcinkevičienė R. Patterns of Word Usage Viewed by Corpus Linguistics. – Kalbotyra, 2000, Nr. 49 (3), P. 71–80.
Marcinkevičienė R. Terminografija ir tekstynas. – Terminologija, 2000, Nr. 6, P. 5–22.
Marcinkevičienė R. Palyginamieji tekstynai – šaltinis tarptautinių žodžių vartosenai tirti. – Kalbotyra, 2002, Nr. 51 (3), P. 81–93.
Marcinkevičienė R., Bielinskienė A., Daudaravičius V., Rimkutė E. Corpora for Lithuanian Language Technologies. – In Proceedings of the First Baltic Conference Human Language Technologies. The Baltic Perspective, Riga, Latvia, April 21–22, 2004, P. 21–24.
Marcinkevičienė R. Dictionary of Lithuanian Phrases. – In Proceedings of the Eleventh EURALEX International Congress, EURALEX 2004, Lorient, France, July 6–10, 2004, ed. by Geoffrey Williams et Sandra Vessier: University of Bretagne. P. 741–751.
Marcinkevičienė R. The Importance of Syntagmatic Dimension in the Multilingual Lexical Database. – International Journal of Corpus Linguistics, 2001, Special Issue. P. 55–65.
Sinclair J. Lexical Grammar. – Darbai ir Dienos, 2000, Nr. 24, P. 191–203.
Tognini Bonelli E. Corpus Classroom Currency. – Darbai ir Dienos, 2000, Nr. 24, P. 205–243.
Utka A. Labai dažnų lietuvių kalbos žodžių ir žodžių formų ypatybės. – Lituanistica 1(61), 2005, P. 48–55.
Kovalevskaitė J. Dabartinės lietuvių kalbos tekstynas – 10 metų kaupimo ir naudojimo patirtis. – Prace Bałtystyczne, 2006, Nr. 3, P. 231–241.
Rimkutė E., Kovalevskaitė J. Daudaravičius V. Daugiakalbių tekstynų naudojimas ir taikymas. – Darbai ir Dienos, 2006, Nr. 45, P. 41–62.
Kalėdaitė V. Translating Existence (A Corpus-based Analysis).– Darbai ir Dienos, 2006, Nr. 45, P. 119–125.
Marcinkevičienė R. Patterns of word usage in corpus linguistics. – Corpus Linguistics. Critical Concepts in Linguistics (ed. by Wolfgang Teubert and Ramesh Krishnamurthy): Routledge, 2007, Vol. III, P. 85–96.
Marcinkevičienė R. The importance of the syntagmatic dimension in the multilingual lexical database. – Text Corpora and Multilingual Lexicography (ed. by Wolfgang Teubert): John Benjamins Publishing Company, 2007, P. 49–58.
Rimkutė E., Daudaravičius V., Utka A., Kovalevskaitė J. Bilingual Parallel Corpora for English, Czech and Lithuanian. Tarptautinės konferencijos The Third Baltic Conference on Human Language Technologies 2007 pranešimų medžiaga. Kaunas, 2008, P. 319–326.
Rimkutė E., Kovalevskaitė J., Melninkaitė V., Utka A., Vitkutė-Adžgauskienė D. Corpus of Contemporary Lithuanian Language – the Standardised Way. – Human Language Technologies – The Baltic Perspective: Proceedings of the Fourth International Conference Baltic HLT 2010, P. 154–160.

Web实体关系数据集

发表于 2018-06-10

提供者:卢梦依
下载地址:https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets/blob/master/datasets/hlt-naacl08-data.txt

简介

数据集概述

该数据集包含两种实体关系Corporate Acquisition Pairs and Person-Birthplace Pairs ,从web网络上抽取。The corporate acquisition test set包含995实例,其中156个正实例。 The person-birthplace test set包含601个实例,45个正实例。
示例:

相关论文

1.Bunescu R C, Mooney R J. Learning to Extract Relations from the Web using Minimal Supervision[C]// ACL 2007, Proceedings of the, Meeting of the Association for Computational Linguistics, June 23-30, 2007, Prague, Czech Republic. DBLP, 2007.
2.Q. Zhang, S. A. Goldman, W. Yu, and J. Fritts. 2002. Content-based image retrieval using multiple-instance learning. In Proc. of ICML’02, pages 682–689.
3.D. Zelenko, C. Aone, and A. Richardella. 2003. Kernel methods for relation extraction. Journal of Machine Learning Research, 3:1083–1106

New York Times 数据集

发表于 2018-06-10

提供者:卢梦依
下载地址:https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets/blob/master/datasets/DataSet-IJCNLP2011.tar.gz

简介

数据集概述

NYT数据集是关于远程监督关系抽取任务的广泛使用的数据集。该数据集是通过将freebase中的关系与纽约时报(NYT)语料库对齐而生成的。纽约时报New York Times数据集包含150篇来自纽约时报的商业文章。抓取了从2009年11月到2010年1月纽约时报网站上的所有文章。在句子拆分和标记化之后,使用斯坦福NER标记器(URL:http://nlp.stanford.edu/ner/index.shtml)来标识PER和ORG从每个句子中的命名实体。对于包含多个标记的命名实体,我们将它们连接成单个标记。然后,我们将同一句子中出现的每一对(PER,ORG)实体作为单个候选关系实例,PER实体被视为ARG-1,ORG实体被视为ARG-2。

示例:

相关论文

1.GuoDong Zhou, Jian Su, Jie Zhang, and Min Zhang.2005. Exploring various knowledge in relation extraction. In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics,pages 427–434, June.
2.Dmitry Zelenko, Chinatsu Aone, and Anthony Richardella. 2003. Kernel methods for relation extraction. Journal of Machine Learning Research,3:1083–1106
3.Fei Wu and Daniel S. Weld. 2010. Open information extraction using Wikipedia. In Proceedings of the tational Linguistics, pages 118–127, July.

DBpediaRelations-PT 数据集

发表于 2018-06-10

提供者:卢梦依
下载地址:https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets/blob/master/datasets/DBpediaRelations-PT-0.2.txt.bz2

简介

数据集概述

该数据集收集了葡萄牙语句子集合,从DBPedia中提取的实体对之间的语义关系。

示例:

相关论文

1.Culotta A, Mccallum A, Betz J. Integrating probabilistic extraction models and data mining to discover relations and patterns in text[C]// Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics. Association for Computational Linguistics, 2006:296-303.
2.Dmitry Zelenko, Chinatsu Aone, and Anthony Richardella.2003. Kernel methods for relation extraction. Journal of Machine Learning Research, 3:1083–1106.
3.Sunita Sarawagi and William W. Cohen. 2004. Semi-markov conditional random fields for information extraction. In NIPS 04.

Wikipedia关系抽取数据集

发表于 2018-06-10

提供者:卢梦依
下载地址:https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets/blob/master/datasets/wikipedia_datav1.0.tar.gz

简介

数据集概述

该数据集从在线百科全书维基百科的271篇文章中抽取了1127段,并标记了总共4701个关系实例。 除了大量的人际关系之外,还包括人与组织之间的联系,以及诸如生日和jobTitle等传记事实。 总的来说,训练数据中有53个标签。

示例:

相关论文

1.Culotta A, Mccallum A, Betz J. Integrating probabilistic extraction models and data mining to discover relations and patterns in text[C]// Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics. Association for Computational Linguistics, 2006:296-303.
2.Dmitry Zelenko, Chinatsu Aone, and Anthony Richardella.2003. Kernel methods for relation extraction. Journal of Machine Learning Research, 3:1083–1106.
3.Sunita Sarawagi and William W. Cohen. 2004. Semi-markov conditional random fields for information extraction. In NIPS 04.

Book Crossing 推荐系统数据

发表于 2018-06-09

提供者:杜成玉
下载地址:http://www2.informatik.uni-freiburg.de/~cziegler/BX/

概述

数据来源:https://blog.csdn.net/u013749540/article/details/51800988

这个数据集是网上的Book-Crossing图书社区的278858个用户对271379本书进行的评分,包括显式和隐式的评分。这些用户的年龄等人口统计学属性(demographic feature)都以匿名的形式保存并供分析。这个数据集是由Cai-Nicolas Ziegler使用爬虫程序在2004年从Book-Crossing图书社区上采集的。

相关论文

1.Ziegler C N, Freiburg D. Book-crossing dataset[J]. 2004-06-01)[014-06-201. http://www2. informatik, uni-freiburg, de/cziegler/BX, 2014.
2.Zhang Y, Cao B, Yeung D Y. Multi-domain collaborative filtering[J]. arXiv preprint arXiv:1203.3535, 2012.
3.Rafter R, O’mahony M P, Hurley N J, et al. What have the neighbours ever done for us? a collaborative filtering perspective[C]//International Conference on User Modeling, Adaptation, and Personalization. Springer, Berlin, Heidelberg, 2009: 355-360.
4.Harper F M, Konstan J A. The movielens datasets: History and context[J]. ACM Transactions on Interactive Intelligent Systems (TiiS), 2016, 5(4): 19.
5.Gao S, Luo H, Chen D, et al. Cross-domain recommendation via cluster-level latent factor model[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer, Berlin, Heidelberg, 2013: 161-176.

Airbnb开放的民宿信息和住客评价数据

发表于 2018-06-09

提供者:杜成玉
下载地址:http://dataju.cn/Dataju/web/datasetInstanceDetail/309

概述

数据来源:https://www.ushuji.com/life_social/469.html

美国著名共享民宿网站 Airbnb 开放的民宿信息和住客评价数据,包括民宿的位置、房间、配置、价格、住客的评分和自然语言评论等。

数据集特征

相关论文

1.Ma X, Hancock J T, Mingjie K L, et al. Self-Disclosure and Perceived Trustworthiness of Airbnb Host Profiles[C]//CSCW. 2017: 2397-2409.
2.Zervas G, Proserpio D, Byers J. A first look at online reputation on Airbnb, where every stay is above average[J]. 2015.
3.Kakar V, Franco J, Voelz J, et al. Effects of host race information on Airbnb listing prices in San Francisco[J]. 2016.
4.Ert E, Fleischer A, Magen N. Trust and reputation in the sharing economy: The role of personal photos in Airbnb[J]. Tourism Management, 2016, 55: 62-73.
5.Byers J W, Esposito F, Proserpio D, et al. The hyper-local economic impact of Airbnb[C]//9th Symposium on Statistical Challenges in eCommerce Research, Lisbon, Portugal. 2013.

1…456…22

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4