世界语言资源平台

  • 首页
  • 标签
  • 归档

WikiLens推荐系统评分数据集

发表于 2018-06-09

提供者:刘唯
下载地址:https://grouplens.org/datasets/wikilens/

概述

数据来源:https://grouplens.org/datasets/wikilens/

WikiLens是一个通用的协作推荐系统,允许其社区定义项目类型(例如啤酒)和类别(例如,微泡、淡啤酒、粗壮),然后对项目进行评级并得到推荐。由于缺乏系统维护和支持,在2009中离线。这个数据集是在2008年2月提取的。

相关论文

1.Yang Z, Zhang Z K, Zhou T. Anchoring bias in online voting[J]. EPL (Europhysics Letters), 2013, 100(6): 68002.
2.Frankowski D, Lam S K, Sen S, et al. Recommenders everywhere:: the wikilens community-maintained recommender system[C]//Proceedings of the 2007 international symposium on Wikis. ACM, 2007: 47-60.
3.Frankowski D, Lam S K, Sen S, et al. Recommenders everywhere:: the wikilens community-maintained recommender system[C]//Proceedings of the 2007 international symposium on Wikis. ACM, 2007: 47-60.

Usenet Newsgroups推荐系统数据集

发表于 2018-06-09

提供者:刘唯
下载地址:http://www.newsgroup-binaries.com/

概述

数据来源:http://www.52ml.net/196.html

这个数据集包括20个新闻组的用户浏览数据。最新的应用是在KDD2007上的论文。新闻组的内容和讨论的话题包括计算机技术、摩托车、篮球、政治等。用户们对这些话题进行评价和反馈。

相关论文

1.Fisher D, Smith M, Welser H T. You are who you talk to: Detecting roles in usenet newsgroups[C]//System Sciences, 2006. HICSS’06. Proceedings of the 39th Annual Hawaii International Conference on. IEEE, 2006, 3: 59b-59b.
2.Agichtein E, Castillo C, Donato D, et al. Finding high-quality content in social media[C]//Proceedings of the 2008 international conference on web search and data mining. ACM, 2008: 183-194.
3.Zhang J, Ackerman M S, Adamic L. Expertise networks in online communities: structure and algorithms[C]//Proceedings of the 16th international conference on World Wide Web. ACM, 2007: 221-230.
4.Adamic L A, Zhang J, Bakshy E, et al. Knowledge sharing and yahoo answers: everyone knows something[C]//Proceedings of the 17th international conference on World Wide Web. ACM, 2008: 665-674.
5.Ren Y, Kraut R, Kiesler S. Applying common identity and bond theory to design of online communities[J]. Organization studies, 2007, 28(3): 377-408.

Serendipity 2018推荐系统数据集

发表于 2018-06-09

提供者:刘唯
下载地址:https://grouplens.org/datasets/serendipity-2018/

概述

数据来源:https://grouplens.org/datasets/serendipity-2018/

基于真实用户反馈的“推荐系统中偶然发现”的数据集

相关论文

1.Kotkov D, Konstan J A, Zhao Q, et al. Investigating Serendipity in Recommender Systems Based on Real User Feedback[J]. 2018.

Retailrocket 电子商务网站行为数据数据集

发表于 2018-06-09

提供者:刘唯
下载地址:https://www.kaggle.com/retailrocket/ecommerce-dataset

概述

数据来源:http://dataju.cn/Dataju/web/datasetInstanceDetail/290

Retailrocket recommender system dataset 是一个真实电子商务网站用户的行为数据,包括4.5个月内网站访问者的行为数据,行为分为3类:点击、加入购物车、交易。总计由1407580位访问者的2756101个行为事件,其中浏览行为2664312、添加到购物车行为69332、22457个交易行为。

相关论文

1.Chawla S, Jain V, Agarwal R, et al. EXPLORING DATASETS AND PROPOSITION OF A NEW VARIANT OF COLLABORATIVE FILTERING ALGORITHM FOR E-COMMERCE RECOMMENDER SYSTEMS[J].
2.Quadrana M, Cremonesi P, Jannach D. Sequence-aware recommender systems[J]. arXiv preprint arXiv:1802.08452, 2018.
3.Ludewig M, Jannach D. Evaluation of Session-based Recommendation Algorithms[J]. arXiv preprint arXiv:1803.09587, 2018.

厦门大学国家语言资源检测与研究教育教材中心语料库

发表于 2018-06-09

提供者:朱述承
原文地址:http://ncl.xmu.edu.cn/shj/

语料构成

目前已经开通了部分语料库的全文检索,近期将继续更新。
现语料库的教材种类及规模为:

序号 类别 数据库名称 词记录数 字符数
1 语料库 国内对外汉语教材 539489 771350
2 语料库 中小学语文教材 1289898 1834150
3 语料库 现代汉语语料库 107202650 174426634
4 词典 现代汉语分类词典 无统计数据 无统计数据
5 语料库 学科教材语料库 878365 1450898
总计 / / 109910402 178483032

语料来源详细说明

(1)国内对外汉语教材
序号 来源
1 博雅汉语;出版社:北京大学出版社;出版时间:2004,2006
2 汉语会话301句;出版社:北京语言大学出版社:出版时间:2006
3 汉语教程;出版社:北京大学出版社;出版时间:1992,1993
4 汉语教程;出版社:北京语言大学出版社;出版时间:1999,2003
5 交际汉语;出版社:科学普及出版社;出版时间:2003
6 阶梯汉语;出版社:话语教学出版社;出版时间:2004
7 桥梁;出版社:北京语言大学出版社;出版时间:2000
8 速成汉语;出版社:北京语言大学出版社;出版时间:1996
9 新标准汉语;出版社:北京大学出版社;出版时间:2004
10 新实用汉语;出版社:北京语言大学出版社;出版时间:2002,2005
11 中文;出版社:暨南大学出版社;出版时间:1997

(2)中小学语文教材
序号 来源
1 语文;出版社:江苏教育出版社;阶段:小学;主编:张庆,朱家珑;初审时间:2001-2004
2 语文;出版社:江苏教育出版社;阶段:初中;主编:洪宗礼;初审时间:2002
3 语文;出版社:北京师范大学出版社;阶段:初中;主编:孙绍振;初审时间:2004
4 语文;出版社:人民教育出版社;阶段:小学;主编:崔峦,蒯福棣;初审时间:2001-2004
5 语文;出版社:语文出版社;阶段:初中;主编:史习江;初审时间:2001-2002
6 语文;出版社:北京师范大学出版社;阶段:小学;主编:马新国,郑国民;初审时间:2001-2003
7 语文;出版社:语文出版社;阶段:小学;主编:王均,杨曙望;初审时间:2003
8 语文;出版社:人民教育出版社;阶段:初中;主编:顾振彪,顾之川,温立三;初审时间:2001-2004

(3)现代汉语语料库
序号 来源
1 文学
2 报纸
3 网站新闻
4 博客
5 口语材料
6 杂志

(4)现代汉语分类词典
序号 来源

(5)学科教材语料库
序号 来源
1 地理;出版社:中国地图出版社;主编:王民主;初审时间:2003
2 历史;出版社:华东师范大学出版社;主编:王斯德;初审时间:2001-2003
3 历史;出版社:人民教育出版社;主编:王宏志;初审时间:2001-2002
4 地理;出版社:人民教育出版社;主编:吴履平;初审时间:2001-2002
5 历史;出版社:北京师范大学出版社;主编:朱汉国;初审时间:2007
6 地理;出版社:湖南教育出版社;主编:刘新民;初审时间:2001
7 历史;出版社:四川教育出版社;主编:龚奇柱;初审时间:2003-2004

加工和统计

所有语料经过机器分词和机器词性标注。统计信息中分词单位数指词(包含标点符号)的总记录数,字符数包含标点符号。

模糊检索说明

模糊检索完全支持正则表达式,但是正则表达式中必须包含汉字。 例如:一边[\u4e00-\u9fa5]{0,10}一边 可以在非分词语料中检索包含“一边”……“一边”并且中间有0-10个汉字的句子,其中“[\u4e00-\u9fa5]”表示汉字,“{0,10}”表示长度。 正则表达式的详细说明可以参考正则表达式(来源:百度百科)

《现代汉语分类词典》

《现代汉语分类词典》苏新春主编,纸质版由商务印书馆于2013年出版。

词义标注规则库

“词义标注规则库”来自苏新春教授主持的国家社科基金项目“基于国家语委‘通用语料库’之上的汉语义频词库的开发”,主要用于多义词的计算机词义甄别。计算机词义甄别是计算机语言处理词汇层面上亟待解决的问题,相对于词的切分和词性标注其困难程度有高了许多,其中计算机缺乏辨析多义词知识是主要困难,“词义标注规则库”通过提供直接的词义区别性形式特征作为甄别知识,从而达到计算机词义甄别的目的。 规则库为3775个多义词提供词义甄别知识,多义词的选择标准是双音节,高频,义项在2-5个之间,这些是现代汉语多义词的主体部分。其内容总体上融合了“现代汉语语料库”的统计信息、“词义标注机用义项库”提供的计算机用义项、“现代汉语分类库”提供的语义类、“语法信息库”(来自《现代汉语语法信息词典》北京大学俞士汶等著)提供的语法框架。这些基础性知识库经过统计和人工甄别形成“词义标注规则库”。利用这一知识库编写的词义自动甄别软件取得了较好的词义甄别效果。

词义标注验证库

“词义标注验证库”来自苏新春教授主持的国家社科基金项目“基于国家语委‘通用语料库’之上的汉语义频词库的开发”,主要用于多义词的计算机词义甄别。计算机词义甄别是计算机语言处理词汇层面上亟待解决的问题,相对于词的切分和词性标注其困难程度有高了许多。准确标准词义的语料对计算机词义甄别有重要意义,既可以作为词义甄别知识的统计来源,也可以用于计算机甄别效果的检验。但是这方面语料库的大规模开发又非常困难,成效不大。 为了增强可行性,“词义标注验证库”含3775个多义词的标注结果,多义词的选择标准是双音节,高频,义项在2-5个之间。库中每个词随机选取100-240个句子,人工标注义项。
本网站暂时每个义项公布20个句子。

传媒语言语料库在线分词标注系统

发表于 2018-06-09

提供者:朱述承
原文地址:http://ling.cuc.edu.cn/cucseg/

简介

传媒语言语料库在线分词标注系统是由中国传媒大学国家语言资源检测与研究有声媒体中心有声媒体语言资源网开发的分词标注系统

使用指南

本系统有三组选项,分别是“切分颗粒度选项”、“词性输出选项”和“标记集选项”。

切分颗粒度选项:
“切分颗粒度选项”有两个选项值,分别是“粗粒度”和“细粒度”。这两个选项值的主要区别表现在以下几个方面:
l 汉族(包括日本、韩国人名中能明显识别出姓和名的)人名中姓和名的分合
l 组合型机构名、地名和其他专名的分合
l 组合型时间表达式的分合
l 组合型数字表达式的分合
l 组合型量词表达式的分合
1)“细粒度”
指按较小颗粒度原则进行切分,上述几项都切开。如汉族人名切成“李/snr 玉山/nr”;组合型机构名切成“北京/ns 大学/n”;组合型地名切成“湖南省/ns 长沙市/ns”;组合型其他专名切成“人民/n 日报/n”;组合型时间表达式切成“今天/t 下午/t”;组合型数字表达式切成“三/m 百/m 二/m 十/m 一/m”;组合型量词表达式切成“元/q //w 平方米/q”。
2)“粗粒度”
指按较大颗粒度原则进行切分,上述几项都不再切开。如汉族人名切成“李玉山/nr”;组合型机构名切成“北京大学/nt”,组合型地名切成“湖南省长沙市/ns”;组合型其他专名切成“人民日报/nz”;组合型时间表达式切成“今天下午/t”;组合型数字表达式切成“三百二十一/m”;组合型量词表达式切成“元/平方米/q”。

词性输出选项:
由于一个单词可能有多个兼类词性,因而设置了“词性输出选项”,该选项有三个值,分别是“单词性”、“所有词性”和“无词性”。

1)“单词性”
指每个单词只标注一个词性,这个词性就是分词系统为单词选择的最佳词性。
2)“所有词性”
如果切分结果中一个单词有多个兼类词性,则在小括号中显示该单词的全部兼类词性。例如,“的”字的切分结果可能显示为“的/u(Dg-Ng-u)”。“的”字后面的“/u”表示该切分中确定的词性,而小括号中的“Dg-Ng-u”包括了“的”字的所有兼类词性,不同词性之间用‘-’分隔。
3)“无有词性”
输出切分结果中不包含词性。

标记集选项:
本系统为切分结果提供了不同词性标记集的选择,可选的词性标记集有“CUC(中传)”词性标记集和“PKU(北大)”词性标记集。

1)“CUC(中传)”
使用中国传媒大学国家语言资源监测与研究有声媒体中心制定的词性标记集,该标记集以北京大学计算语言学研究所制定的切分标记集为基础,并在此基础上进行了细分,个别地方略有改动,详情请见下表尾部的说明。
2)“PKU(北大)”
使用北京大学计算语言学研究所制定的词性标记集。

中日旅游语料库

发表于 2018-06-09

提供者:朱述承
原文地址:http://www.yuliaoku.net/

简介

中日旅游语料库是云南大学旅游文化学院开发的中日双语平行语料库,语料的主要内容是云南省的旅游景点及简介。

内容

包含“所有景点”、“丽江”、“大理”、“香格里拉”、“人文景观”、“自然景观”、“世界遗产”七个栏目,并提供检索功能。

相关论文

云南省旅游汉日双语平行语料库的创建和应用 和佳 蚌埠学院学报 2017

Microsoft Word

发表于 2018-06-09

提供者:朱述承
原文地址:http://blog.sina.com.cn/s/blog_651a9e980101h71t.html

简介

要做基于语料库的研究,免不了要进行标注处理工作。MS-word是大家非常熟悉的文字处理工具。稍加改造便可以制作自己的语料标注工具。在熟悉的环境下进行工作,是不是会少了些忐忑的感觉。下面就来介绍一下如何制作标注工具。

步骤

一、设计自己的标注体系, 即赋码集, 比如/Ojg表示机构等等。
二、在word的菜单栏上找到“插入”再往下找到“自动图文集”。
三、 在“自动文图文集”对话框下编辑和“添加”自己的赋码。
四、完成所有的赋码编辑之后,转到菜单栏“工具”下的“自定义”,并勾选“自动图文集”前的复选框。
五、单击“自定义”对话框下的功能选项卡“命令”。右边“命令”下的框内列车了自己的编辑的赋码集,用鼠标将框内的赋码一一拖到Word的菜单栏上,即可。用word打开需要标注的文本,将光标移到要标注的位置,单击菜单栏上相应的赋码即可完成标注。

注意

如果标注任务完成了,不再需要这些标注符号,或者需要更新别的符号。完全可以将这些标注符号从word工具栏上拖走。步骤是先点击“工具”,再点击“自定义”,打开工具设定对话框。

EachMovie推荐系统评分数据集

发表于 2018-06-09

提供者:杜成玉
下载地址:https://grouplens.org/datasets/eachmovie/

概述

数据来源:http://www.52ml.net/196.html

HP/Compaq的DEC研究中心曾经在网上架设EachMovie电影推荐系统对公众开放.之后,这个推荐系统关闭了一段时间,其数据作为研究用途对外公布,MovieLens的部分数据就是来自于这个数据集的.这个数据集有72916个用户对l628部电影进行的2811983次评分。早期大量的协同过滤的研究工作都 是基于这个数据集的。2004年HP重新开放EachMovie,这个数据集就不提供公开下载了。

相关论文

1.McJones P. Eachmovie collaborative filtering data set[J]. DEC Systems Research Center, 1997, 249: 57.
2.Melville P, Mooney R J, Nagarajan R. Content-boosted collaborative filtering for improved recommendations[C]//In Proceedings of the Eighteenth National Conference on Artificial Intelligence (AAAI-2002. 2002.
3.Condli M K, Lewis D D, Madigan D, et al. Bayesian Mixed-E ects Models for Recommender Systems[C]//ACM SIGIR. 1999, 99.
4.Breese J S, Heckerman D, Kadie C. Empirical analysis of predictive algorithms for collaborative filtering[C]//Proceedings of the Fourteenth conference on Uncertainty in artificial intelligence. Morgan Kaufmann Publishers Inc., 1998: 43-52.

情感挖掘的酒店评论语料库

发表于 2018-06-03

提供者:杜成玉
下载地址:https://download.csdn.net/download/lssc4205/9903298

概述

数据来源:https://blog.csdn.net/noter16/article/details/75340354

谭松波收集整理了一个较大规模的酒店评论语料。语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。为了方便起见,语料被整理成4个子集:
1.ChnSentiCorp-Htl-ba-2000: 平衡语料,正负类各1000篇。
2.ChnSentiCorp-Htl-ba-4000: 平衡语料,正负类各2000篇。
3.ChnSentiCorp-Htl-ba-6000: 平衡语料,正负类各3000篇。
4.ChnSentiCorp-Htl-unba-10000: 非平衡语料,正类为7000篇。

相关论文

[1]王骏科. 多粒度中文情感分析系统的研究与实现[D].电子科技大学,2017.
[2]陈柯宇. 酒店领域文本情感分类研究[D].重庆大学,2017.
[3]孔伟俊. 细粒度情感分析技术在评论挖掘系统中的应用[D].江苏科技大学,2017.
[4]魏华,李华飙.基于短语模式的情感分析[J].科研信息化技术与应用,2015,6(06):12-17.
[5]贾会玲,吴晟,李英娜,李萌萌,杨玺,李川.基于PLSA模型的观点句聚类算法研究[J].价值工程,2015,34(31):167-169.
[6]刘邵博. 社会网络新媒体的信息获取与情感分类关键技术研究及实现[D].河北科技大学,2013.

1…567…22

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4