提供者:杜成玉
下载地址:http://www.statmt.org/lm-benchmark/
概述
数据来源:https://zhuanlan.zhihu.com/p/25887325?utm_source=tuicool&utm_medium=referral
这是一个大型、通用的语言建模数据集,常用于如 word2vec 或 Glove 的分布式词语表征。它的目的是提供一个标准的培训和测试设置语言建模实验。训练/保持数据是从WMT 2011新闻爬行数据使用BASH shell和Perl脚本的组合在这里产生的。除了重建训练/保持数据所需的脚本之外,它还为每个十个Feld输出数据集中的每个单词提供可用的对数概率值,用于以下基线模型中的每一个:
·unpruned Katz (1.1B n-grams),
·pruned Katz (~15M n-grams),
·unpruned Interpolated Kneser-Ney (1.1B n-grams),
·pruned Interpolated Kneser-Ney (~15M n-grams)
相关论文
[1]Chelba C, Mikolov T, Schuster M, et al. One billion word benchmark for measuring progress in statistical language modeling[J]. arXiv preprint arXiv:1312.3005, 2013.
[2]Abadi M, Barham P, Chen J, et al. TensorFlow: A System for Large-Scale Machine Learning[C]//OSDI. 2016, 16: 265-283.
[3]Le Q V, Jaitly N, Hinton G E. A simple way to initialize recurrent networks of rectified linear units[J]. arXiv preprint arXiv:1504.00941, 2015.
[4]Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of wasserstein gans[C]//Advances in Neural Information Processing Systems. 2017: 5769-5779.
[5]Chen J, Pan X, Monga R, et al. Revisiting distributed synchronous SGD[J]. arXiv preprint arXiv:1604.00981, 2016.