提供者:李华勇
简介
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。
我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。
数据集构成
- THUCTC_java_v1_run.zip
THUCTC可执行的jar包(Java版) 1.2MB 2016-01-25
- THUCTC_java_v1.zip
THUCTC可导入的jar包,包括源代码(Java版) 1.1MB 2016-01-25
- THUCNews.zip
THUCNews中文文本数据集 1.56GB 2016-01-25
- THUCNews_model.zip
使用THUCNews中文文本数据集训练出来的THUCTC模型,可直接使用;参数为-d1 0.8 -d2 0.2 -f 20000 2.6MB 2016-12-18
下载地址
http://thuctc.thunlp.org/message相关论文
Jingyang Li, Maosong Sun. Scalable Term Selection for Text Categorization. Proc. of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Republic, 2007, pp. 774-782.
Jingyang Li, Maosong Sun, Xian Zhang. A Comparison and Semi-Quantitative Analysis of Words and Character-Bigrams as Features in Chinese Text Categorization. Proc. of the 2006 Joint Conference of the International Committee on Computational Linguistics and the Association for Computational Linguistics (COLING-ACL 2006), Sydney, Australia, 2006, pp. 545-552.