文本简化数据集

提供者:卢梦依
下载地址:http://www.cs.pomona.edu/~dkauchak/simplification/

简介

数据集概述

在本文中,我们研究了句子简化的任务,旨在通过结合更容易理解的词汇和句子结构来减少句子的阅读复杂性。我们引入了一组新的数据集,它将英文维基百科与简单的英文维基百科结合起来,其数量级比以前任何一个被检查过的句子都要大。这些数据包含了全部的简化操作,包括重新措辞、重新排序、插入和删除。我们提供对该语料库的分析,以及使用基于短语的翻译方法进行简化的初步结果。 我们已经生成了一组数据集,由137K排列的简化/不简化的句子对配对文件,然后从英语维基百科的句子和相应的文档和句子从简单的英语维基百科。简单的英文维基百科包含针对儿童和英语学习者的文章,并包含类似于英语维基的内容。

文件

大小:包含137K句子对

相关论文

1.Coster W, Kauchak D. Simple English Wikipedia: A New Text Simplification Task.[C]// The, Meeting of the Association for Computational Linguistics: Human Language Technologies, Proceedings of the Conference, 19-24 June, 2011, Portland, Oregon, Usa - Short Papers. DBLP, 2011:665-669.
2.Regina Barzilay and Noemie Elhadad. 2003. Sentence alignment for monolingual comparable corpora. In Proceedings of EMNLP
3.Raman Chandrasekar and Bangalore Srinivas. 1997. Automatic induction of rules for text simplification. In Knowledge Based Systems.
4.David Vickrey and Daphne Koller. 2008. Sentence simplification for semantic role labeling. In Proceedings of ACL
5.Dan Klein and Christopher Manning. 2003. Accurate unlexicalized parsing. In Proceedings of ACL