世界语言资源平台

  • 首页
  • 标签
  • 归档

iris数据集

发表于 2018-04-21

提供者:杜成玉
下载地址:https://www.yelp.com/dataset/download

概述

数据来源:https://blog.csdn.net/java1573/article/details/78865495。
iris数据集的中文名是安德森鸢尾花卉数据集,英文全称是Anderson’s Iris data set。iris包含150个样本,对应数据集的每行数据。每行数据包含每个样本的四个特征和样本的类别信息,所以iris数据集是一个150行5列的二维表。通俗地说,iris数据集是用来给花做分类的数据集,每个样本包含了花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征(前4列),我们需要建立一个分类器,分类器可以通过样本的四个特征来判断样本属于山鸢尾、变色鸢尾还是维吉尼亚鸢尾(这三个名词都是花的品种)。iris的每个样本都包含了品种信息,即目标属性(第5列,也叫target或label)。

数据集特征

数据来源:http://archive.ics.uci.edu/ml/datasets/Iris
特征:多变量
记录数:150
领域:生活
属性特征:实数
属性数目:4
相关应用:分类
缺失值?无

使用

iris的每个样本都包含了品种信息,即目标属性(第5列,也叫target或label)。将样本中的4个特征两两组合(任选2个特征分别作为横轴和纵轴,用不同的颜色标记不同品种的花),可以构建12种组合(其实只有6种,另外6种与之对称)。

相关论文

1.Fisher,R.A. “The use of multiple measurements in taxonomic problems” Annual Eugenics, 7, Part II, 179-188 (1936); also in “Contributions to Mathematical Statistics” (John Wiley, NY, 1950).
2.Duda,R.O., & Hart,P.E. (1973) Pattern Classification and Scene Analysis. (Q327.D83) John Wiley & Sons. ISBN 0-471-22361-1. See page 218.
3.Manuel Oliveira. Library Release Form Name of Author: Stanley Robson de Medeiros Oliveira Title of Thesis: Data Transformation For Privacy-Preserving Data Mining Degree: Doctor of Philosophy Year this Degree Granted. University of Alberta Library. 2005.
4.Ping Zhong and Masao Fukushima. A Regularized Nonsmooth Newton Method for Multi-class Support Vector Machines. 2005.
5.Anthony K H Tung and Xin Xu and Beng Chin Ooi. CURLER: Finding and Visualizing Nonlinear Correlated Clusters. SIGMOD Conference. 2005.

`

yelp数据集

发表于 2018-04-21

提供者:杜成玉
下载地址:https://www.yelp.com/dataset/download

概述

数据来源:http://www.gooseeker.com/doc/thread-4667-1-1.html

Yelp Dataset Challenge是Yelp官方公布的挑战赛,只要你的研究项目用到这个数据集,并且研究文章得到Yelp的青睐,就有机会获取5000美元以上的奖金。Yelp是美国著名商户点评网站,创立于2004年,囊括各地餐馆、购物中心、酒店、旅游等领域的商户,用户可以在Yelp网站中给商户打分,提交评论,交流购物体验等。在Yelp 中搜索一个餐厅或者旅馆,能看到它的简要介绍以及网友的点论,点评者还会给出多少星级的评价,通常点评者都是亲身体验过该商户服务的消费者,评论大多形象细致。数据集包括470万条用户评价,15多万条商户信息,20万张图片,12个大都市。此外,还涵盖110万用户的100万条tips,超过120万条商家属性(如营业时间、是否有停车场、是否可预订和环境等信息),随着时间推移在每家商户签到的总用户数。

数据集特征

数据来源:http://blog.sina.com.cn/s/blog_4db72f1501010zs0.html

文件类型:nodes.csv和edges.csv
数据类型:企业、评论、用户、签入和提示

相关论文

1.Bin Guo,Shasha Zhou. Understanding the impact of prior reviews on subsequent reviews: The role of rating volume, variance and reviewer characteristics[J]. Electronic Commerce Research and Applications,2016,20.
2.Camilla Vásquez. Right now versus back then : Recency and remoteness as discursive resources in online reviews[J]. Discourse, Context & Media,2015,9.
3.毛莺池,穆超,包威,李晓芳.空间众包中多类型任务的分配与调度方法[J].计算机应用,2018,38(01):6-12.
4.孙庆英,王中卿,朱巧明,周国栋.基于整数线性规划的商家属性抽取研究[J].中文信息学报,2017,31(06):190-195+204.
`

MNIST数据集

发表于 2018-04-21

提供者:杜成玉
下载地址:http://yann.lecun.com/exdb/mnist/

概述

数据来源:https://www.zhihu.com/question/63383992/answer/222718972

机器学习领域内用于手写字识别的数据集,数据集中包含6个万训练集、10000个示例测试集。,每个样本图像的宽高为28*28。这些数据集的大小已经归一化,并且形成固定大小,因此预处理工作基本已经完成。在机器学习中,主流的机器学习工具(包括sklearn)很多都使用该数据集作为入门级别的介绍和应用。

数据集特征

数据来源:

数据存储在一个非常简单的文件格式中,用于存储向量和多维矩阵。数据集有4个文件:训练集图像、训练集标签、测试集图像和测试集标签。训练集包含60000例,测试集包括10000例。

相关论文

1.Ernst Kussul,Tatiana Baidyk. Improved method of handwritten digit recognition tested on MNIST database[J]. Image and Vision Computing,2004,22(12).
2.Migel D. Tissera,Mark D. McDonnell. Deep extreme learning machines: supervised autoencoding architecture for classification[J]. Neurocomputing,2016,174.
3.Theus H. Aspiras,Vijayan K. Asari. Hierarchical Autoassociative Polynimial Network (HAP Net) for pattern recognition[J]. Neurocomputing,2017,222.
4.陈蔼祥.用于字符和数字识别的若干分类方法的比较研究:实验结果[J].计算机科学,2015,42(S1):102-106+121.

Maluuba NewsQA

发表于 2018-04-21

提供者:杜成玉
下载地址:https://github.com/Maluuba/newsqa

概述

数据来源:https://www.zhihu.com/question/63383992/answer/222718972

Maluuba的NewsQA数据集的目的是帮助研究团队建立能够回答需要人为理解和推理技能的问题的算法。它包含了从DeepMind问答数据集中的CNN文章中抽取了120K个常见问题。推荐应用方向:文本挖掘、自然语言理解、智能问答。

相关论文

1.Adam Trischler, Tong Wang, Xingdi Yuan, Justin Harris, Alessandro Sordoni, Philip Bachman, Kaheer Suleman. NewsQA: A Machine Comprehension Dataset. under review as conference paper at ICLR 2017.

IMDB电影评论数据集及简介

发表于 2018-04-21

提供者:杜成玉
下载地址:https://download.csdn.net/download/chenshulong/9982554

概述

数据来源:https://yq.aliyun.com/articles/576274
这是电影爱好者的梦幻数据集,它意味着二元情感分类,并具有比此领域以前的任何数据集更多的数据。除了训练和测试评估示例之外,还有更多未标记的数据供你使用。原始文本和预处理的单词格式包也包括在内。

数据集特征

数据来源:https://yq.aliyun.com/articles/576274
大小:80 MB。
记录数量: 25,000个电影评论训练,25,000个测试

相关论文

[1]Dodds K. Popular geopolitics and audience dispositions: James Bond and the internet movie database (IMDb)[J]. Transactions of the Institute of British Geographers, 2006, 31(2): 116-130.
[2]Ahmed A, Batagelj V, Fu X, et al. Visualisation and analysis of the Internet movie database[C]//Visualization, 2007. APVIS’07. 2007 6th International Asia-Pacific Symposium on. IEEE, 2007: 17-24.
[3]Herr B W, Ke W, Hardy E, et al. Movies and actors: Mapping the internet movie database[C]//Information Visualization, 2007. IV’07. 11th International Conference. IEEE, 2007: 465-469.
[4]Fons J, Pelechano V, Pastor O, et al. Applying the OOWS model-driven approach for developing web applications. The internet movie database case study[M]//Web Engineering: Modelling and Implementing Web Applications. Springer, London, 2008: 65-108.
[5]Internet Movie Database. Internet movie database[J]. 2012.

康奈尔大学(Cornell)提供的影评数据集数据集

发表于 2018-04-21

提供者:杜成玉
下载地址:http://www.cs.cornell.edu/people/pabo/movie-review-data

概述

由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句子各5,331 句,标注了主客观标签的句子各5,000 句.目前影评库被广泛应用于各种粒度的,如词语、句子和篇章级情感分析研究中。

相关论文

[1]韩忠明, 李梦琪, 刘雯, 等. 网络评论方面级观点挖掘方法研究综述[J]. Journal of Software, 2018, 29(2).
[2]琚春华, 邹江波, 傅小康. 基于多特征融合的跨域情感分类模型研究[J]. 知识管理论坛, 2016, 6: 008.
[3]黄萱菁, 赵军. 中文文本情感倾向性分析[J]. 中国计算机学会通讯, 2008, 4(2): 39-46.

adult数据集

发表于 2018-04-21

提供者:杜成玉
下载地址:http://www.cs.toronto.edu/~delve/data/adult/desc.html

概述

数据来源:https://www.jianshu.com/p/be23b3870d2e
该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。

数据集特征

数据来源:http://archive.ics.uci.edu/ml/datasets/Adult
特征:多变量
记录数:48842
领域:社会
属性特征:类别型,整数
属性数目:14
相关应用:分类
缺失值?有

相关论文

1.Ron Kohavi, “Scaling Up the Accuracy of Naive-Bayes Classifiers: a Decision-Tree Hybrid”, Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, 1996
2.Rakesh Agrawal and Ramakrishnan ikant and Dilys Thomas. Privacy Preserving OLAP. SIGMOD Conference. 2005.
3.Rich Caruana and Alexandru Niculescu-Mizil. An Empirical Evaluation of Supervised Learning for ROC Area. ROCAI. 2004.
4.Rich Caruana and Alexandru Niculescu-Mizil and Geoff Crew and Alex Ksikes. Ensemble selection from libraries of models. ICML. 2004.
5.Bianca Zadrozny. Learning and evaluating classifiers under sample selection bias. ICML. 2004.

`

win数据集

发表于 2018-04-21

提供者:杜成玉
下载地址:http://archive.ics.uci.edu/ml/machine-learning-databases/wine/

概述

数据来源:https://www.jianshu.com/p/be23b3870d2e

这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

数据集特征

数据来源:http://archive.ics.uci.edu/ml/datasets/Wine

特征:多变量
记录数:178
领域:物理
属性特征:整型,实数
属性数目:13
相关应用:分类
缺失值?没有

相关论文

1.Ping Zhong and Masao Fukushima. A Regularized Nonsmooth Newton Method for Multi-class Support Vector Machines. 2005.
2.Igor Fischer and Jan Poland. Amplifying the Block Matrix Structure for Spectral Clustering. Telecommunications Lab. 2005.
3.Agapito Ledezma and Ricardo Aler and Araceli Sanchís and Daniel Borrajo. Empirical Evaluation of Optimized Stacking Configurations. ICTAI. 2004.
4.Jianbin Tan and David L. Dowe. MML Inference of Oblique Decision Trees. Australian Conference on Artificial Intelligence. 2004.
5.Sugato Basu. Semi-Supervised Clustering with Limited Background Knowledge. AAAI. 2004.

`

百度自然语言处理API服务

发表于 2018-04-19

提供者:刘晓
地址:http://ai.baidu.com/tech/nlp

下载地址

百度自然语言处理:http://ai.baidu.com/tech/nlp
SDK下载地址:http://ai.baidu.com/sdk#nlp

简介

Python SDK文档,主要针对Python开发者描述百度自然语言处理接口服务的相关技术内容。

接口能力:

  • 接口名称: 接口能力简要描述
  • 词法分析: 分词、词性标注、专名识别
  • 依存句法分析: 自动分析文本中的依存句法结构信息
  • 词向量表示: 查询词汇的词向量,实现文本的可计算
  • DNN语言模型: 判断一句话是否符合语言表达习惯,输出分词结果并给出每个词在句子中的概率值
  • 词义相似度: 计算两个给定词语的语义相似度
  • 短文本相似度: 判断两个文本的相似度得分
  • 评论观点抽取: 提取一个句子观点评论的情感属性
  • 情感倾向分析: 对包含主观观点信息的文本进行情感极性类别(积极、消极、中性)的判断,并给出相应的置信度
  • 中文分词: 切分出连续文本中的基本词汇序列(已合并到词法分析接口)
  • 词性标注: 为自然语言文本中的每个词汇赋予词性(已合并到词法分析接口)

版本更新:
2018.01.25 2.2.0 新增文本标签API
2017.12.22 2.0.0 SDK代码重构
2017.5.11 1.0.0 自然语言处理服务上线

安装

安装自然语言处理 Python SDK

自然语言处理 Python SDK目录结构:

|── README.md

├── aip //SDK目录

│ ├── init.py //导出类

│ ├── base.py //aip基类

│ ├── http.py //http请求

│ └── nlp.py //自然语言处理

└── setup.py //setuptools安装

支持Python版本:2.7.+ ,3.+

安装使用Python SDK有如下方式:

如果已安装pip:

pip install baidu-aip  

如果已安装setuptools:

python setup.py install  

使用教程

新建AipNlp

AipNlp是自然语言处理的Python SDK客户端,为使用自然语言处理的开发人员提供了一系列的交互方法。

参考如下代码新建一个AipNlp:

from aip import AipNlp

""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'

client = AipNlp(APP_ID, API_KEY, SECRET_KEY)  

在上面代码中,常量APP_ID在百度云控制台中创建,常量API_KEY与SECRET_KEY是在创建完毕应用后,系统分配给用户的,均为字符串,用于标识用户,为访问做签名验证,可在AI服务控制台中的应用列表中查看。

注意:如您以前是百度云的老用户,其中API_KEY对应百度云的“Access Key ID”,SECRET_KEY对应百度云的“Access Key Secret”。

配置AipNlp

如果用户需要配置AipNlp的网络请求参数(一般不需要配置),可以在构造AipNlp之后调用接口设置参数,目前只支持以下参数:

接口 说明
setConnectionTimeoutInMillis 建立连接的超时时间(单位:毫秒
setSocketTimeoutInMillis 通过打开的连接传输数据的超时时间(单位:毫秒)

接口说明

词法分析
词法分析接口向用户提供分词、词性标注、专名识别三大功能;能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体。

text = "百度是一家高科技公司"

""" 调用词法分析 """
client.lexer(text);  
  • 参数 –> text : 必选,string类型,是一个待分析文本(目前仅支持GBK编码),长度不超过65536字节。
  • 返回参数分析:
参数名称 类型 必需 详细说明
text string 是 原始单条请求文本
items array(object) 是 词汇数组,每个元素对应结果中的一个词
+item string 是 词汇的字符串
+ne string 是 命名实体类型,命名实体识别算法使用。词性标注算法中,此项为空串
+pos string 是 词性,词性标注算法使用。命名实体识别算法中,此项为空串
+byte_offset int 是 在text中的字节级offset(使用GBK编码)
+byte_length int 是 字节级length(使用GBK编码)
+uri string 否 链指到知识库的URI,只对命名实体有效。对于非命名实体和链接不到知识库的命名实体,此项为空串
+formal string 否 词汇的标准化表达,主要针对时间、数字单位,没有归一化表达的,此项为空串
+basic_words array(string) 是 基本词成分
+loc_details array(object) 否 地址成分,非必需,仅对地址型命名实体有效,没有地址成分的,此项为空数组。
++type string 是 成分类型,如省、市、区、县
++byte_offset int 是 在item中的字节级offset(使用GBK编码)
++byte_length nt 是 字节级length(使用GBK编码)
  • 词法分析返回示例:

     {
         "status":0,
         "version":"ver_1_0_1",
         "results":[
         {
           "retcode":0,
           "text":"百度是一家高科技公司",
          "items":[
         {
            "byte_length":4,
            "byte_offset":0,
            "formal":"",
            "item":"百度",
            "ne":"ORG",
            "pos":"",
            "uri":"",
            "loc_details":[ ],
            "basic_words":["百度"]
          },
          {
            "byte_length":2,
            "byte_offset":4,
            "formal":"",
            "item":"是",
            "ne":"",
            "pos":"v",
            "uri":"",
            "loc_details":[ ],
            "basic_words":["是"]
          },
          {
            "byte_length":4,
            "byte_offset":6,
            "formal":"",
            "item":"一家",
            "ne":"",
            "pos":"m",
            "uri":"",
            "loc_details":[ ],
            "basic_words":["一","家"]
           },
           {
            "byte_length":6,
            "byte_offset":10,
            "formal":"",
            "item":"高科技",
            "ne":"",
            "pos":"n",
            "uri":"",
            "loc_details":[ ],
            "basic_words":["高","科技"]
           },
           {
           "byte_length":4,
           "byte_offset":16,
           "formal":"",
           "item":"公司",
           "ne":"",
           "pos":"n",
           "uri":"",
           "loc_details":[ ],
           "basic_words":["公司"]
           }
          ]
       }
      ]
    }
    
  • 词性缩略说明:
词性 含义 词性 含义 词性 含义 词性 含义
n 普通名词 f 方位名词 s 处所名词 t 时间名词
nr 人名 ns 地名 nt 机构团体名 nw 作品名
nz 其他专名 v 普通动词 vd 动副词 vn 名动词
a 形容词 ad 副形词 an 名形词 d 副词
m 数量词 q 量词 r 代词 p 介词
c 连词 u 助词 xc 其他虚词 w 标点符号
  • 专名识别缩略词含义:
缩略词 含义 缩略词 含义 缩略词 含义 缩略词 含义
PER 人名 LOC 地名 ORG 机构名 TIME 时间

词法分析(定制版)
词法分析接口向用户提供分词、词性标注、专名识别三大功能;能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体。定制版接口的使用教程请看链接:http://ai.baidu.com/forum/topic/show/496975

text = "百度是一家高科技公司"

""" 调用词法分析(定制版) """
client.lexerCustom(text);
  • 词法分析(定制版) 请求参数详情
参数名称 是否必选 类型 说明
text 是 string 待分析文本(目前仅支持GBK编码),长度不超过65536字节
  • 词法分析(定制版) 返回数据参数详情
参数名称 类型 必需 详细说明
text string 是 原始单条请求文本
items array(object) 是 词汇数组,每个元素对应结果中的一个词
+item string 是 词汇的字符串
+ne string 是 命名实体类型,命名实体识别算法使用。词性标注算法中,此项为空串
+pos string 是 词性,词性标注算法使用。命名实体识别算法中,此项为空串
+byte_offset int 是 在text中的字节级offset(使用GBK编码)
+byte_length int 是 字节级length(使用GBK编码)
+uri string 否 链指到知识库的URI,只对命名实体有效。对于非命名实体和链接不到知识库的命名实体,此项为空串
+formal string 否 词汇的标准化表达,主要针对时间、数字单位,没有归一化表达的,此项为空串
+basic_words array(string) 是 基本词成分
+loc_details array(object) 否 地址成分,非必需,仅对地址型命名实体有效,没有地址成分的,此项为空数组。
++type string 是 成分类型,如省、市、区、县
++byte_offset int 是 在item中的字节级offset(使用GBK编码)
++byte_length int 是 字节级length(使用GBK编码)

依存句法分析

依存句法分析接口可自动分析文本中的依存句法结构信息,利用句子中词与词之间的依存关系来表示词语的句法结构信息(如“主谓”、“动宾”、“定中”等结构关系),并用树状结构来表示整句的结构(如“主谓宾”、“定状补”等)。

text = "张飞"

""" 调用依存句法分析 """
client.depParser(text);

""" 如果有可选参数 """
options = {}
options["mode"] = 1

""" 带参数调用依存句法分析 """
client.depParser(text, options)  
  • 依存句法分析 请求参数详情
参数名称 是否必选 类型 说明
text 是 string 待分析文本(目前仅支持GBK编码),长度不超过256字节
mode 否 string 模型选择。默认值为0,可选值mode=0(对应web模型);mode=1(对应query模型)
  • 依存句法分析 返回数据参数详情
参数名称 类型 详细说明
log_id uint64 随机数,本次请求的唯一标识码
id number 词的ID
word string 词
postag string 词性,请参照API文档中的词性(postag)取值范围
head int 词的父节点ID
+deprel string 词与父节点的依存关系,请参照API文档的依存关系标识
  • 依存句法分析 返回示例

    {
    "log_id": 12345,
    "text":"今天天气怎么样",
    "items":[
    {
    "id":"1", //id
    "word":"今天", //word
    "postag":"t", //POS tag
    "head":"2", //id of current word's parent
    "deprel":"ATT"  //depend relations between current word and parent
    },
    {
    "id":"2",
    "word":"天气",
    "postag":"n",
    "head":"3",
    "deprel":"SBV",
    },
    {
    "id":"3",
    "word":"怎么样",
    "postag":"r",
    "head":"0",
    "deprel":"HED",
    }
    ]
    }  
    

词向量表示

词向量表示接口提供中文词向量的查询功能。

word = "张飞"

""" 调用词向量表示 """
client.wordEmbedding(word);
  • 词向量表示 请求参数详情
参数名称 是否必选 类型 说明

word 是 string 文本内容(GBK编码),最大64字节

  • 词向量表示 返回数据参数详情
参数 类型 描述
log_id uint64 请求唯一标识码
word string 查询词
vec float 词向量结果表示
  • 词向量表示 返回示例

    {
      "word": "张飞",
      "vec": [
    0.233962,
    0.336867,
    0.187044,
    0.565261,
    0.191568,
    0.450725,
    ...
    0.43869,
    -0.448038,
    0.283711,
    -0.233656,
    0.555556
      ]
    }  
    

DNN语言模型

中文DNN语言模型接口用于输出切词结果并给出每个词在句子中的概率值,判断一句话是否符合语言表达习惯。

text = "床前明月光"

""" 调用DNN语言模型 """
client.dnnlm(text);
  • DNN语言模型 请求参数详情
参数名称 是否必选 类型 说明
text 是 string 文本内容(GBK编码),最大512字节,不需要切词
  • DNN语言模型 返回数据参数详情
参数 类型 说明
log_id uint64 请求唯一标识码
word string 句子的切词结果
prob float 该词在句子中的概率值,取值范围[0,1]
ppl float 描述句子通顺的值:数值越低,句子越通顺
{
  "text": "床前明月光",
  "items": [
    {
      "word": "床",
      "prob": 0.0000385273
    },
    {
      "word": "前",
      "prob": 0.0289018
    },
    {
      "word": "明月",
      "prob": 0.0284406
    },
    {
      "word": "光",
      "prob": 0.808029
    }
  ],
  "ppl": 79.0651
}  

词义相似度

输入两个词,得到两个词的相似度结果。

word1 = "北京"

word2 = "上海"

""" 调用词义相似度 """
client.wordSimEmbedding(word1, word2);

""" 如果有可选参数 """
options = {}

""" 带参数调用词义相似度 """
client.wordSimEmbedding(word1, word2, options)
  • 词义相似度 请求参数详情
参数名称 是否必选 类型 说明
word_1 是 string 词1(GBK编码),最大64字节
word_2 是 string 词1(GBK编码),最大64字节
  • 词义相似度 返回数据参数详情
参数 类型 描述
log_id number 请求唯一标识码,随机数
score number 相似度分数
words array 输入的词列表
+word_1 string 输入的word1参数
+word_2 string 输入的word2参数
  • 词义相似度 返回示例

    {
        "score": 0.456862,
        "words": {
        "word_1": "北京",
        "word_2": "上海"
        }
    }
    

短文本相似度

短文本相似度接口用来判断两个文本的相似度得分。

text1 = "浙富股份"

text2 = "万事通自考网"

""" 调用短文本相似度 """
client.simnet(text1, text2);

""" 如果有可选参数 """
options = {}
options["model"] = "CNN"

""" 带参数调用短文本相似度 """
client.simnet(text1, text2, options)
  • 短文本相似度 请求参数详情
参数名称 是否必选 类型 可选值范围 说明
text_1 是 string 待比较文本1(GBK编码),最大512字节
text_2 是 string 待比较文本2(GBK编码),最大512字节
model 否 string BOW /CNN /GRNN 默认为”BOW”,可选”BOW”、”CNN”与”GRNN”
  • 短文本相似度 返回数据参数详情
参数 类型 描述
log_id number 请求唯一标识
score number 两个文本相似度得分
texts array 输入文本
+text_1 string 第一个短文本
+text_2 string 第二个短文本
  • 短文本相似度 返回示例

    {
        "log_id": 12345,
        "texts":{
        "text_1":"浙富股份",
        "text_2":"万事通自考网"
        },
       "score":0.3300237655639648 //相似度结果
    },  
    

评论观点抽取

评论观点抽取接口用来提取一条评论句子的关注点和评论观点,并输出评论观点标签及评论观点极性。

text = "三星电脑电池不给力"

""" 调用评论观点抽取 """
client.commentTag(text);

""" 如果有可选参数 """
options = {}
options["type"] = 13

""" 带参数调用评论观点抽取 """
client.commentTag(text, options)
  • 评论观点抽取 请求参数详情
参数名称 是否必选 类型 可选值范围 说明
text 是 string 评论内容(GBK编码),最大10240字节
type 否 string 1 - 酒店 2 - KTV 3 - 丽人 4 - 美食餐饮 5 - 旅游 6 - 健康 7 - 教育 8 - 商业 9 - 房产 10 - 汽车 11 - 生活 12 - 购物 13 - 3C 评论行业类型,默认为4(餐饮美食)
  • 评论观点抽取 返回数据参数详情
参数 类型 描述
log_id uint64 请求唯一标识码
prop string 匹配上的属性词
adj string 匹配上的描述词
sentiment int 该情感搭配的极性(0表示消极,1表示中性,2表示积极)
begin_pos int 该情感搭配在句子中的开始位置
end_pos int 该情感搭配在句子中的结束位置
abstract string 对应于该情感搭配的短句摘要
  • 评论观点抽取 返回示例

    {
        "items": [
        {
        "prop":"电池",
        "adj": "不给力",
        "sentiment": 0,
        "begin_pos": 8,
        "end_pos": 18,
        "abstract":"三星电脑<span>电池不给力</span>"
        }
        ]
    }  
    

情感倾向分析

对包含主观观点信息的文本进行情感极性类别(积极、消极、中性)的判断,并给出相应的置信度。

text = "苹果是一家伟大的公司"

""" 调用情感倾向分析 """
client.sentimentClassify(text);
  • 情感倾向分析 请求参数详情
参数名称 是否必选 类型 说明
text 是 string 文本内容(GBK编码),最大2048字节
  • 情感倾向分析 返回数据参数详情
参数 是否必须 类型 说明
text 是 string 输入的文本内容
items 是 array 输入的词列表
+sentiment 是 number 表示情感极性分类结果, 0:负向,1:中性,2:正向
+confidence 是 number 表示分类的置信度
+positive_prob 是 number 表示属于积极类别的概率
+negative_prob 是 number 表示属于消极类别的概率
  • 情感倾向分析 返回示例

    {
        "text":"苹果是一家伟大的公司",
        "items":[
        {
        "sentiment":2,//表示情感极性分类结果
        "confidence":0.40, //表示分类的置信度
        "positive_prob":0.73, //表示属于积极类别的概率
        "negative_prob":0.27  //表示属于消极类别的概率
        }
        ]
    }
    

文章标签

文章标签服务能够针对网络各类媒体文章进行快速的内容理解,根据输入含有标题的文章,输出多个内容标签以及对应的置信度,用于个性化推荐、相似文章聚合、文本内容分析等场景。

title = "iphone手机出现“白苹果”原因及解决办法,用苹果手机的可以看下"

content = "如果下面的方法还是没有解决你的问题建议来我们门店看下成都市锦江区红星路三段99号银石广场24层01室。"

""" 调用文章标签 """
client.keyword(title, content);
  • 文章标签 请求参数详情
参数名称 是否必选 类型 说明
title 是 string 篇章的标题,最大80字节
content 是 string 篇章的正文,最大65535字节
  • 文章标签 返回数据参数详情
参数 是否必选 类型 说明
items 是 array(object) 关键词结果数组,每个元素对应抽取到的一个关键词
+tag 是 string 关注点字符串
+score 是 number 权重(取值范围0~1)
  • 文章标签 返回示例
{
    "log_id": 4457308639853058292,
    "items": [
    {
        "score": 0.997762,
        "tag": "iphone"
    },
    {
        "score": 0.861775,
        "tag": "手机"
    },
    {
        "score": 0.845657,
        "tag": "苹果"
    },
    {
        "score": 0.83649,
        "tag": "苹果公司"
    },
    {
        "score": 0.797243,
        "tag": "数码"
    }
    ]
}  

文章分类

对文章按照内容类型进行自动分类,首批支持娱乐、体育、科技等26个主流内容类型,为文章聚类、文本内容分析等应用提供基础技术支持。

title = "欧洲冠军杯足球赛"

content = "欧洲冠军联赛是欧洲足球协会联盟主办的年度足球比赛,代表欧洲俱乐部足球最高荣誉和水平,被认为是全世界最高素质、最具影响力以及最高水平的俱乐部赛事,亦是世界上奖金最高的足球赛事和体育赛事之一。"

""" 调用文章分类 """
client.topic(title, content);
  • 文章分类 请求参数详情
参数名称 是否必选 类型 说明
title 是 string 篇章的标题,最大80字节
content 是 string 篇章的正文,最大65535字节
  • 文章分类 返回数据参数详情
参数名称 类型 详细说明
item object 分类结果,包含一级与二级分类
+lv1_tag_list array of objects 一级分类结果
+lv2_tag_list array of objects 二级分类结果
++score float 类别标签对应得分,范围0-1
++tag string 类别标签
  • 文章分类 返回示例

    {
        "log_id": 5710764909216517248,
        "item": {
        "lv2_tag_list": [
        {
        "score": 0.895467,
        "tag": "足球"
        },
        {
        "score": 0.794878,
        "tag": "国际足球"
        }
        ],
        "lv1_tag_list": [
        {
        "score": 0.88808,
        "tag": "体育"
        }
        ]
        }
    }
    

错误信息

错误返回格式

若请求错误,服务器将返回的JSON文本包含以下参数:

  • error_code:错误码。
  • error_msg:错误描述信息,帮助理解和解决发生的错误。

错误码

错误码 错误信息 描述
4 Open api request limit reached 集群超限额
14 IAM Certification failed IAM鉴权失败,建议用户参照文档自查生成sign的方式是否正确,或换用控制台中ak sk的方式调用
17 Open api daily request limit reached 每天流量超限额
18 Open api qps request limit reached QPS超限额
19 Open api total request limit reached 请求总量超限额
100 Invalid parameter 无效参数
110 Access token invalid or no longer valid Access Token失效
111 Access token expired Access token过期
282000 internal error 服务器内部错误,请再次请求, 如果持续出现此类错误,请通过QQ群(632426386)或工单联系技术支持团队。
282002 input encoding error 编码错误,请使用GBK编码
282004 invalid parameter(s) 请求中包含非法参数,请检查后重新尝试
282130 no result 当前查询无结果返回,出现此问题的原因一般为:参数配置存在问题,请检查后重新尝试
282131 input text too long 输入长度超限,请查看文档说明
282133 param {参数名} not exist 接口参数缺失
282300 word error word不在算法词典中
282301 word_1 error word_1提交的词汇暂未收录,无法比对相似度
282302 word_2 error word_2提交的词汇暂未收录,无法比对相似度
282303 word_1&word_2 error word_1和word_2暂未收录,无法比对相似度

pynlpir

发表于 2018-04-19

提供者:刘晓
地址:http://ictclas.nlpir.org/

简介

PyNLPIR是NLPIR / ICTCLAS中文分词软件的Python包装器
NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取。
本文主要介绍Python版本—PyNLPIR 。

PyNLPIR允许使用NLPIR轻松地对中文文本进行分类,NLPIR是最受人们关注的中文文本分析器之一。

安装

PyNLPIR被设计为在Python 2.7或3上运行。由于包含了NLPIR库文件,它只能在Windows,GNU / Linux或macOS上运行。

Pip 安装:

$ pip install pynlpir
$ pynlpir update

从源代码安装:

如果你想手动安装PyNLPIR:

  • 从https://pypi.org/project/PyNLPIR/页面下载最新版本。
  • 解压文件。
  • 从目录PyNLPIR-XX中,运行python setup.py install
  • 运行pynlpir 更新以下载最新的许可证文件。

这会在Python 站点包目录中安装PyNLPIR 。

安装开发版本:

PyNLPIR的代码托管在GitHub上。首先安装开发版,确保安装了Git 。然后运行:

$ git clone git://github.com/tsroten/pynlpir.git
$ pip install -e pynlpir
$ pynlpir update

这会将PyNLPIR目录链接到你的站点包 目录。pynlpir 更新将从NLPIR项目下载最新的许可证。

运行测试:

运行测试很容易。下载并解压缩PyNLPIR的源代码后,从PyNLPIR的源代码目录中运行以下代码:

$ python setup.py 测试  

如果要使用不同版本的Python运行测试,请安装并运行tox:

$ pip安装tox
 $ tox

使用教程

有两种使用PyNLPIR的方法:直接使用PyNLPIR提供的ctypes接口或使用PyNLPIR的辅助函数。该ctypes的界面更广泛,更严格。辅助函数很容易使用,但不提供对每个NLPIR函数的访问。也可以使用这两种方法的混合。首先,让我们看看辅助函数。

PyNLPIR助手函数
辅助函数位于PyNLPIR的init.py文件中,因此可以通过直接导入pynlpir来访问它们。

初始化NLPIR
导入PyNLPIR会自动加载NLPIR API库:

import pynlpir  

一旦它被导入,调用open()来告诉NLPIR打开数据文件并初始化API。有关指定其他数据目录的信息,请参阅open()的文档。

pynlpir.open()  

默认情况下,输入被假定为unicode或UTF-8编码。如果您想使用不同的编码(例如GBK或BIG5),请在调用open()时使用encoding关键字参数:

pynlpir.open(encoding='big5')  
#Tip:无论指定什么编码,都可以将unicode字符串传递给 pynlpir函数。  

PyNLPIR的辅助函数总是返回unicode字符串。
一旦初始化了NLPIR,就可以开始分割和分析文本。

细分文本:
让我们分段一个冗长的句子:

s = 'NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统,从2009年开始,为了和以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检索共享平台,调整命名为NLPIR分词系统。'
pynlpir.segment(s)

# Sample output: [('NLPIR', 'noun'), ('分词', 'verb'), ('系统', 'noun'), ('前身', 'noun'), ('为', 'preposition'), ('2000年', 'time word'), ('发布', 'verb'), . . . ]

如果不想词性标注,segment()中的参数pos_tagging设置为False:

pynlpir.segment(s, pos_tagging=False)

# Sample output: ['NLPIR', '分词', '系统', '前身', '为', '2000年', '发布', . . . ]  

还可以自定义如何显示词性标签。默认情况下,只使用最通用的词性名称部分,即父母(例如 ‘名词’,而不是’转录地名’)。如果希望使用最具体的演讲名称部分,即儿童,请将pos_names设置 为’child’:

pynlpir.segment(s, pos_names='child')

如果你想要了解关于词性标签的更多信息,你可以设置 pos_names为’all’,并且返回一个词性层次结构(例如, ‘noun:toponym:transcribed toponym’):

pynlpir.segment(s, pos_names='all')

默认情况下,词性标记以英语返回。如果您希望看到中文(例如’名词’而不是’名词’),请将pos_english设置为False:

pynlpir.segment(s, pos_english=False)  

获取关键词:
另一个有用的函数是get_key_words():

pynlpir.get_key_words(s, weighted=True)
[('NLPIR', 2.08), ('系统', 1.74)]  

get_key_words()分析给定的中文文本字符串并返回NLPIR认为关键字的单词。如果权重为 True,则关键字的权重也作为浮点数返回。

关闭API:
现在我们已经看了PyNLPIR辅助函数的简要介绍,让我们看看如何关闭API。

当使用PyNLPIR时,你可以通过调用close()来释放分配的内存 :

pynlpir.close()    

ctypes NLPIR接口:

pynlpir.nlpir通过 ctypes提供对NLPIR’C函数的访问。你可以直接调用它们,而不用担心上面的辅助函数。这些函数的工作方式与C语言的对应函数几乎完全相同。

pynlpir.nlpir包含由NLPIR导出的调用其许多函数(例如编码和词性常量)所需的模块级常量。有关更多信息,请参阅 pynlpir.nlpir上的API页面。

以下各节不提供关于如何使用NLPIR的全面说明。NLPIR有它自己的文档。以下部分提供了有关如何开始使用PyNLPIR的基本信息,前提是您熟悉NLPIR。如果你不是,请务必查看下面链接的文档。

分词与词性标注示例:
需要注意的是,使用pynlpir的时候,首先要初始化,也就是需要先open(pynlpir.open()),当执行完成后需要对应的关闭(pynlpir.close())
代码示例:

# coding:utf-8

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

import pynlpir

pynlpir.open()
s = '因为我比较懒,所以我就只是修改了这句话,代码还是原博客的'
segments = pynlpir.segment(s)
for segment in segments:
     print segment[0], '\t', segment[1]

pynlpir.close()  

运行结果:

因为  preposition
我   pronoun
比较  adverb
懒   adjective
,   punctuation mark
所以  conjunction
我   pronoun
就   adverb
只   adverb
是   verb
修改  verb
了   particle
这   pronoun
句   classifier
话   noun
,   punctuation mark
代码  noun
还   adverb
是   verb
原   distinguishing word
博客  noun
的   particle

Process finished with exit code 0  

NLPIR还可以更加详细的输出词性信息,做如下修改:

segments = pynlpir.segment(s)
改为:
segments = pynlpir.segment(s,pos_names='all')
你可以在segment时同时配置如下参数,调整结果,请自行选择:
pos_names='all' / 'child' / 'parent' #默认是parent, 表示获取该词性的最顶级词性,child表示获取该词性的最具体的信息,all表示获取该词性相关的所有词性信息,相当于从其顶级词性到该词性的一条路径
pos_english=False # 词性标注结果以中文的形式显示
pos_tagging=False # 只做分词,而不显示词性

运行后可以得到更加详细的结果:

因为  preposition
我   pronoun:personal pronoun
比较  adverb
懒   adjective
,   punctuation mark:comma
所以  conjunction
我   pronoun:personal pronoun
就   adverb
只   adverb
是   verb:verb 是
修改  verb
了   particle:particle 了/喽
这   pronoun:demonstrative pronoun:predicate demonstrative pronoun
句   classifier
话   noun
,   punctuation mark:comma
代码  noun
还   adverb
是   verb:verb 是
原   distinguishing word
博客  noun:other proper noun
的   particle:particle 的/底  

关键词提取代码:

# coding:utf-8

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

import pynlpir

pynlpir.open()
s = '因为我比较懒,所以我就只是修改了这句话,代码还是原博客的'
print '关键词测试:\n'
key_words = pynlpir.get_key_words(s, weighted=True)
for key_word in key_words:
    print key_word[0], '\t', key_word[1]

pynlpir.close()

运行后提取出来的关键词应该是:

关键词测试:

修改  2.0
代码  2.0
博客  2.0

Process finished with exit code 0

本篇工具介绍参考:
https://blog.csdn.net/MebiuW/article/details/52232562?locationNum=12
http://www.shareditor.com/blogshow/?blogId=74

1…171819…22

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4