中文文本分类数据集THUCNews

提供者:李华勇

地址:http://thuctc.thunlp.org/

简介

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。

我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。

数据集构成

  • THUCTC_java_v1_run.zip

    THUCTC可执行的jar包(Java版) 1.2MB 2016-01-25

  • THUCTC_java_v1.zip

    THUCTC可导入的jar包,包括源代码(Java版) 1.1MB 2016-01-25

  • THUCNews.zip

    THUCNews中文文本数据集 1.56GB 2016-01-25

  • THUCNews_model.zip

    使用THUCNews中文文本数据集训练出来的THUCTC模型,可直接使用;参数为-d1 0.8 -d2 0.2 -f 20000 2.6MB 2016-12-18

    下载地址

    http://thuctc.thunlp.org/message

    相关论文

  • Jingyang Li, Maosong Sun. Scalable Term Selection for Text Categorization. Proc. of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Republic, 2007, pp. 774-782.

  • Jingyang Li, Maosong Sun, Xian Zhang. A Comparison and Semi-Quantitative Analysis of Words and Character-Bigrams as Features in Chinese Text Categorization. Proc. of the 2006 Joint Conference of the International Committee on Computational Linguistics and the Association for Computational Linguistics (COLING-ACL 2006), Sydney, Australia, 2006, pp. 545-552.