iris数据集

发表于 2018-04-21

提供者：杜成玉
下载地址：https://www.yelp.com/dataset/download

概述

数据来源：https://blog.csdn.net/java1573/article/details/78865495。
iris数据集的中文名是安德森鸢尾花卉数据集，英文全称是Anderson’s Iris data set。iris包含150个样本，对应数据集的每行数据。每行数据包含每个样本的四个特征和样本的类别信息，所以iris数据集是一个150行5列的二维表。通俗地说，iris数据集是用来给花做分类的数据集，每个样本包含了花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征（前4列），我们需要建立一个分类器，分类器可以通过样本的四个特征来判断样本属于山鸢尾、变色鸢尾还是维吉尼亚鸢尾（这三个名词都是花的品种）。iris的每个样本都包含了品种信息，即目标属性（第5列，也叫target或label）。

数据集特征

数据来源：http://archive.ics.uci.edu/ml/datasets/Iris
特征：多变量
记录数：150
领域：生活
属性特征：实数
属性数目：4
相关应用：分类
缺失值？无

使用

iris的每个样本都包含了品种信息，即目标属性（第5列，也叫target或label）。将样本中的4个特征两两组合（任选2个特征分别作为横轴和纵轴，用不同的颜色标记不同品种的花），可以构建12种组合（其实只有6种，另外6种与之对称）。

yelp数据集

发表于 2018-04-21

提供者：杜成玉
下载地址：https://www.yelp.com/dataset/download

概述

数据来源:http://www.gooseeker.com/doc/thread-4667-1-1.html

Yelp Dataset Challenge是Yelp官方公布的挑战赛，只要你的研究项目用到这个数据集，并且研究文章得到Yelp的青睐，就有机会获取5000美元以上的奖金。Yelp是美国著名商户点评网站，创立于2004年，囊括各地餐馆、购物中心、酒店、旅游等领域的商户，用户可以在Yelp网站中给商户打分，提交评论，交流购物体验等。在Yelp 中搜索一个餐厅或者旅馆，能看到它的简要介绍以及网友的点论，点评者还会给出多少星级的评价，通常点评者都是亲身体验过该商户服务的消费者，评论大多形象细致。数据集包括470万条用户评价，15多万条商户信息，20万张图片，12个大都市。此外，还涵盖110万用户的100万条tips，超过120万条商家属性（如营业时间、是否有停车场、是否可预订和环境等信息），随着时间推移在每家商户签到的总用户数。

数据集特征

数据来源：http://blog.sina.com.cn/s/blog_4db72f1501010zs0.html

文件类型：nodes.csv和edges.csv
数据类型：企业、评论、用户、签入和提示

MNIST数据集

发表于 2018-04-21

提供者：杜成玉
下载地址：http://yann.lecun.com/exdb/mnist/

概述

数据来源：https://www.zhihu.com/question/63383992/answer/222718972

机器学习领域内用于手写字识别的数据集，数据集中包含6个万训练集、10000个示例测试集。，每个样本图像的宽高为28*28。这些数据集的大小已经归一化，并且形成固定大小，因此预处理工作基本已经完成。在机器学习中，主流的机器学习工具（包括sklearn）很多都使用该数据集作为入门级别的介绍和应用。

数据集特征

数据来源：

数据存储在一个非常简单的文件格式中，用于存储向量和多维矩阵。数据集有4个文件：训练集图像、训练集标签、测试集图像和测试集标签。训练集包含60000例，测试集包括10000例。

Maluuba NewsQA

发表于 2018-04-21

提供者：杜成玉
下载地址：https://github.com/Maluuba/newsqa

概述

数据来源:https://www.zhihu.com/question/63383992/answer/222718972

Maluuba的NewsQA数据集的目的是帮助研究团队建立能够回答需要人为理解和推理技能的问题的算法。它包含了从DeepMind问答数据集中的CNN文章中抽取了120K个常见问题。推荐应用方向：文本挖掘、自然语言理解、智能问答。

IMDB电影评论数据集及简介

发表于 2018-04-21

提供者：杜成玉
下载地址：https://download.csdn.net/download/chenshulong/9982554

概述

数据来源：https://yq.aliyun.com/articles/576274
这是电影爱好者的梦幻数据集，它意味着二元情感分类，并具有比此领域以前的任何数据集更多的数据。除了训练和测试评估示例之外，还有更多未标记的数据供你使用。原始文本和预处理的单词格式包也包括在内。

数据集特征

数据来源：https://yq.aliyun.com/articles/576274
大小：80 MB。
记录数量： 25,000个电影评论训练，25,000个测试

康奈尔大学(Cornell)提供的影评数据集数据集

发表于 2018-04-21

提供者：杜成玉
下载地址：http://www.cs.cornell.edu/people/pabo/movie-review-data

概述

由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句子各5,331 句,标注了主客观标签的句子各5,000 句.目前影评库被广泛应用于各种粒度的,如词语、句子和篇章级情感分析研究中。

adult数据集

发表于 2018-04-21

提供者：杜成玉
下载地址：http://www.cs.toronto.edu/~delve/data/adult/desc.html

概述

数据来源：https://www.jianshu.com/p/be23b3870d2e
该数据从美国1994年人口普查数据库抽取而来，可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$，属性变量包含年龄，工种，学历，职业，人种等重要信息，值得一提的是，14个属性变量中有7个类别型变量。

数据集特征

数据来源：http://archive.ics.uci.edu/ml/datasets/Adult
特征：多变量
记录数：48842
领域：社会
属性特征：类别型，整数
属性数目：14
相关应用：分类
缺失值？有

win数据集

发表于 2018-04-21

提供者：杜成玉
下载地址：http://archive.ics.uci.edu/ml/machine-learning-databases/wine/

概述

数据来源：https://www.jianshu.com/p/be23b3870d2e

这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

数据集特征

数据来源：http://archive.ics.uci.edu/ml/datasets/Wine

特征：多变量
记录数：178
领域：物理
属性特征：整型，实数
属性数目：13
相关应用：分类
缺失值？没有

百度自然语言处理API服务

发表于 2018-04-19

提供者：刘晓
地址：http://ai.baidu.com/tech/nlp

下载地址

百度自然语言处理：http://ai.baidu.com/tech/nlp
SDK下载地址：http://ai.baidu.com/sdk#nlp

简介

Python SDK文档，主要针对Python开发者描述百度自然语言处理接口服务的相关技术内容。

接口能力：

接口名称：接口能力简要描述
词法分析：分词、词性标注、专名识别
依存句法分析：自动分析文本中的依存句法结构信息
词向量表示：查询词汇的词向量，实现文本的可计算
DNN语言模型：判断一句话是否符合语言表达习惯，输出分词结果并给出每个词在句子中的概率值
词义相似度：计算两个给定词语的语义相似度
短文本相似度：判断两个文本的相似度得分
评论观点抽取：提取一个句子观点评论的情感属性
情感倾向分析：对包含主观观点信息的文本进行情感极性类别（积极、消极、中性）的判断，并给出相应的置信度
中文分词：切分出连续文本中的基本词汇序列（已合并到词法分析接口）
词性标注：为自然语言文本中的每个词汇赋予词性（已合并到词法分析接口）

版本更新：
2018.01.25 2.2.0 新增文本标签API
2017.12.22 2.0.0 SDK代码重构
2017.5.11 1.0.0 自然语言处理服务上线

安装

安装自然语言处理 Python SDK

自然语言处理 Python SDK目录结构：

|── README.md

├── aip //SDK目录

│ ├── init.py //导出类

│ ├── base.py //aip基类

│ ├── http.py //http请求

│ └── nlp.py //自然语言处理

└── setup.py //setuptools安装

支持Python版本：2.7.+ ,3.+

安装使用Python SDK有如下方式：

如果已安装pip：

pip install baidu-aip

如果已安装setuptools:

python setup.py install

使用教程

新建AipNlp

AipNlp是自然语言处理的Python SDK客户端，为使用自然语言处理的开发人员提供了一系列的交互方法。

参考如下代码新建一个AipNlp：

from aip import AipNlp

""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'

client = AipNlp(APP_ID, API_KEY, SECRET_KEY)

在上面代码中，常量APP_ID在百度云控制台中创建，常量API_KEY与SECRET_KEY是在创建完毕应用后，系统分配给用户的，均为字符串，用于标识用户，为访问做签名验证，可在AI服务控制台中的应用列表中查看。

注意：如您以前是百度云的老用户，其中API_KEY对应百度云的“Access Key ID”，SECRET_KEY对应百度云的“Access Key Secret”。

配置AipNlp

如果用户需要配置AipNlp的网络请求参数(一般不需要配置)，可以在构造AipNlp之后调用接口设置参数，目前只支持以下参数：

接口	说明
setConnectionTimeoutInMillis	建立连接的超时时间（单位：毫秒
setSocketTimeoutInMillis	通过打开的连接传输数据的超时时间（单位：毫秒）

接口说明

词法分析
词法分析接口向用户提供分词、词性标注、专名识别三大功能；能够识别出文本串中的基本词汇（分词），对这些词汇进行重组、标注组合后词汇的词性，并进一步识别出命名实体。

text = "百度是一家高科技公司"

""" 调用词法分析 """
client.lexer(text);

参数 –> text : 必选，string类型，是一个待分析文本（目前仅支持GBK编码），长度不超过65536字节。

返回参数分析：

参数名称	类型	必需	详细说明
text	string	是	原始单条请求文本
items	array(object)	是	词汇数组，每个元素对应结果中的一个词
+item	string	是	词汇的字符串
+ne	string	是	命名实体类型，命名实体识别算法使用。词性标注算法中，此项为空串
+pos	string	是	词性，词性标注算法使用。命名实体识别算法中，此项为空串
+byte_offset	int	是	在text中的字节级offset（使用GBK编码）
+byte_length	int	是	字节级length（使用GBK编码）
+uri	string	否	链指到知识库的URI，只对命名实体有效。对于非命名实体和链接不到知识库的命名实体，此项为空串
+formal	string	否	词汇的标准化表达，主要针对时间、数字单位，没有归一化表达的，此项为空串
+basic_words	array(string)	是	基本词成分
+loc_details	array(object)	否	地址成分，非必需，仅对地址型命名实体有效，没有地址成分的，此项为空数组。
++type	string	是	成分类型，如省、市、区、县
++byte_offset	int	是	在item中的字节级offset（使用GBK编码）
++byte_length	nt	是	字节级length（使用GBK编码）

词法分析返回示例：

 {
     "status":0,
     "version":"ver_1_0_1",
     "results":[
     {
       "retcode":0,
       "text":"百度是一家高科技公司",
      "items":[
     {
        "byte_length":4,
        "byte_offset":0,
        "formal":"",
        "item":"百度",
        "ne":"ORG",
        "pos":"",
        "uri":"",
        "loc_details":[ ],
        "basic_words":["百度"]
      },
      {
        "byte_length":2,
        "byte_offset":4,
        "formal":"",
        "item":"是",
        "ne":"",
        "pos":"v",
        "uri":"",
        "loc_details":[ ],
        "basic_words":["是"]
      },
      {
        "byte_length":4,
        "byte_offset":6,
        "formal":"",
        "item":"一家",
        "ne":"",
        "pos":"m",
        "uri":"",
        "loc_details":[ ],
        "basic_words":["一","家"]
       },
       {
        "byte_length":6,
        "byte_offset":10,
        "formal":"",
        "item":"高科技",
        "ne":"",
        "pos":"n",
        "uri":"",
        "loc_details":[ ],
        "basic_words":["高","科技"]
       },
       {
       "byte_length":4,
       "byte_offset":16,
       "formal":"",
       "item":"公司",
       "ne":"",
       "pos":"n",
       "uri":"",
       "loc_details":[ ],
       "basic_words":["公司"]
       }
      ]
   }
  ]
}

词性缩略说明：

词性	含义	词性	含义	词性	含义	词性	含义
n	普通名词	f	方位名词	s	处所名词	t	时间名词
nr	人名	ns	地名	nt	机构团体名	nw	作品名
nz	其他专名	v	普通动词	vd	动副词	vn	名动词
a	形容词	ad	副形词	an	名形词	d	副词
m	数量词	q	量词	r	代词	p	介词
c	连词	u	助词	xc	其他虚词	w	标点符号

专名识别缩略词含义:

缩略词	含义	缩略词	含义	缩略词	含义	缩略词	含义
PER	人名	LOC	地名	ORG	机构名	TIME	时间

词法分析（定制版）
词法分析接口向用户提供分词、词性标注、专名识别三大功能；能够识别出文本串中的基本词汇（分词），对这些词汇进行重组、标注组合后词汇的词性，并进一步识别出命名实体。定制版接口的使用教程请看链接：http://ai.baidu.com/forum/topic/show/496975

text = "百度是一家高科技公司"

""" 调用词法分析（定制版） """
client.lexerCustom(text);

词法分析（定制版）请求参数详情

参数名称	是否必选	类型	说明
text	是	string	待分析文本（目前仅支持GBK编码），长度不超过65536字节

词法分析（定制版）返回数据参数详情

参数名称	类型	必需	详细说明
text	string	是	原始单条请求文本
items	array(object)	是	词汇数组，每个元素对应结果中的一个词
+item	string	是	词汇的字符串
+ne	string	是	命名实体类型，命名实体识别算法使用。词性标注算法中，此项为空串
+pos	string	是	词性，词性标注算法使用。命名实体识别算法中，此项为空串
+byte_offset	int	是	在text中的字节级offset（使用GBK编码）
+byte_length	int	是	字节级length（使用GBK编码）
+uri	string	否	链指到知识库的URI，只对命名实体有效。对于非命名实体和链接不到知识库的命名实体，此项为空串
+formal	string	否	词汇的标准化表达，主要针对时间、数字单位，没有归一化表达的，此项为空串
+basic_words	array(string)	是	基本词成分
+loc_details	array(object)	否	地址成分，非必需，仅对地址型命名实体有效，没有地址成分的，此项为空数组。
++type	string	是	成分类型，如省、市、区、县
++byte_offset	int	是	在item中的字节级offset（使用GBK编码）
++byte_length	int	是	字节级length（使用GBK编码）

依存句法分析

依存句法分析接口可自动分析文本中的依存句法结构信息，利用句子中词与词之间的依存关系来表示词语的句法结构信息（如“主谓”、“动宾”、“定中”等结构关系），并用树状结构来表示整句的结构（如“主谓宾”、“定状补”等）。

text = "张飞"

""" 调用依存句法分析 """
client.depParser(text);

""" 如果有可选参数 """
options = {}
options["mode"] = 1

""" 带参数调用依存句法分析 """
client.depParser(text, options)

依存句法分析请求参数详情

参数名称	是否必选	类型	说明
text	是	string	待分析文本（目前仅支持GBK编码），长度不超过256字节
mode	否	string	模型选择。默认值为0，可选值mode=0（对应web模型）；mode=1（对应query模型）

依存句法分析返回数据参数详情

参数名称	类型	详细说明
log_id	uint64	随机数，本次请求的唯一标识码
id	number	词的ID
word	string	词
postag	string	词性，请参照API文档中的词性（postag)取值范围
head	int	词的父节点ID
+deprel	string	词与父节点的依存关系，请参照API文档的依存关系标识

依存句法分析返回示例

{
"log_id": 12345,
"text":"今天天气怎么样",
"items":[
{
"id":"1", //id
"word":"今天", //word
"postag":"t", //POS tag
"head":"2", //id of current word's parent
"deprel":"ATT"  //depend relations between current word and parent
},
{
"id":"2",
"word":"天气",
"postag":"n",
"head":"3",
"deprel":"SBV",
},
{
"id":"3",
"word":"怎么样",
"postag":"r",
"head":"0",
"deprel":"HED",
}
]
}

词向量表示

词向量表示接口提供中文词向量的查询功能。

word = "张飞"

""" 调用词向量表示 """
client.wordEmbedding(word);

词向量表示请求参数详情

参数名称	是否必选	类型	说明

word 是 string 文本内容（GBK编码），最大64字节

词向量表示返回数据参数详情

参数	类型	描述
log_id	uint64	请求唯一标识码
word	string	查询词
vec	float	词向量结果表示

词向量表示返回示例

{
  "word": "张飞",
  "vec": [
0.233962,
0.336867,
0.187044,
0.565261,
0.191568,
0.450725,
...
0.43869,
-0.448038,
0.283711,
-0.233656,
0.555556
  ]
}

DNN语言模型

中文DNN语言模型接口用于输出切词结果并给出每个词在句子中的概率值,判断一句话是否符合语言表达习惯。

text = "床前明月光"

""" 调用DNN语言模型 """
client.dnnlm(text);

DNN语言模型请求参数详情

参数名称	是否必选	类型	说明
text	是	string	文本内容（GBK编码），最大512字节，不需要切词

DNN语言模型返回数据参数详情

参数	类型	说明
log_id	uint64	请求唯一标识码
word	string	句子的切词结果
prob	float	该词在句子中的概率值,取值范围[0,1]
ppl	float	描述句子通顺的值：数值越低，句子越通顺

{
  "text": "床前明月光",
  "items": [
    {
      "word": "床",
      "prob": 0.0000385273
    },
    {
      "word": "前",
      "prob": 0.0289018
    },
    {
      "word": "明月",
      "prob": 0.0284406
    },
    {
      "word": "光",
      "prob": 0.808029
    }
  ],
  "ppl": 79.0651
}

词义相似度

输入两个词，得到两个词的相似度结果。

word1 = "北京"

word2 = "上海"

""" 调用词义相似度 """
client.wordSimEmbedding(word1, word2);

""" 如果有可选参数 """
options = {}

""" 带参数调用词义相似度 """
client.wordSimEmbedding(word1, word2, options)

词义相似度请求参数详情

参数名称	是否必选	类型	说明
word_1	是	string	词1（GBK编码），最大64字节
word_2	是	string	词1（GBK编码），最大64字节

词义相似度返回数据参数详情

参数	类型	描述
log_id	number	请求唯一标识码,随机数
score	number	相似度分数
words	array	输入的词列表
+word_1	string	输入的word1参数
+word_2	string	输入的word2参数

词义相似度返回示例

{
    "score": 0.456862,
    "words": {
    "word_1": "北京",
    "word_2": "上海"
    }
}

短文本相似度

短文本相似度接口用来判断两个文本的相似度得分。

text1 = "浙富股份"

text2 = "万事通自考网"

""" 调用短文本相似度 """
client.simnet(text1, text2);

""" 如果有可选参数 """
options = {}
options["model"] = "CNN"

""" 带参数调用短文本相似度 """
client.simnet(text1, text2, options)

短文本相似度请求参数详情

参数名称	是否必选	类型	可选值范围	说明
text_1	是	string		待比较文本1（GBK编码），最大512字节
text_2	是	string		待比较文本2（GBK编码），最大512字节
model	否	string	BOW /CNN /GRNN	默认为”BOW”，可选”BOW”、”CNN”与”GRNN”

短文本相似度返回数据参数详情

参数	类型	描述
log_id	number	请求唯一标识
score	number	两个文本相似度得分
texts	array	输入文本
+text_1	string	第一个短文本
+text_2	string	第二个短文本

短文本相似度返回示例

{
    "log_id": 12345,
    "texts":{
    "text_1":"浙富股份",
    "text_2":"万事通自考网"
    },
   "score":0.3300237655639648 //相似度结果
},

评论观点抽取

评论观点抽取接口用来提取一条评论句子的关注点和评论观点，并输出评论观点标签及评论观点极性。

text = "三星电脑电池不给力"

""" 调用评论观点抽取 """
client.commentTag(text);

""" 如果有可选参数 """
options = {}
options["type"] = 13

""" 带参数调用评论观点抽取 """
client.commentTag(text, options)

评论观点抽取请求参数详情

参数名称	是否必选	类型	可选值范围	说明
text	是	string		评论内容（GBK编码），最大10240字节
type	否	string	1 - 酒店 2 - KTV 3 - 丽人 4 - 美食餐饮 5 - 旅游 6 - 健康 7 - 教育 8 - 商业 9 - 房产 10 - 汽车 11 - 生活 12 - 购物 13 - 3C	评论行业类型，默认为4（餐饮美食）

评论观点抽取返回数据参数详情

参数	类型	描述
log_id	uint64	请求唯一标识码
prop	string	匹配上的属性词
adj	string	匹配上的描述词
sentiment	int	该情感搭配的极性（0表示消极，1表示中性，2表示积极）
begin_pos	int	该情感搭配在句子中的开始位置
end_pos	int	该情感搭配在句子中的结束位置
abstract	string	对应于该情感搭配的短句摘要

评论观点抽取返回示例

{
    "items": [
    {
    "prop":"电池",
    "adj": "不给力",
    "sentiment": 0,
    "begin_pos": 8,
    "end_pos": 18,
    "abstract":"三星电脑<span>电池不给力</span>"
    }
    ]
}

情感倾向分析

对包含主观观点信息的文本进行情感极性类别（积极、消极、中性）的判断，并给出相应的置信度。

text = "苹果是一家伟大的公司"

""" 调用情感倾向分析 """
client.sentimentClassify(text);

情感倾向分析请求参数详情

参数名称	是否必选	类型	说明
text	是	string	文本内容（GBK编码），最大2048字节

情感倾向分析返回数据参数详情

参数	是否必须	类型	说明
text	是	string	输入的文本内容
items	是	array	输入的词列表
+sentiment	是	number	表示情感极性分类结果, 0:负向，1:中性，2:正向
+confidence	是	number	表示分类的置信度
+positive_prob	是	number	表示属于积极类别的概率
+negative_prob	是	number	表示属于消极类别的概率

情感倾向分析返回示例

{
    "text":"苹果是一家伟大的公司",
    "items":[
    {
    "sentiment":2,//表示情感极性分类结果
    "confidence":0.40, //表示分类的置信度
    "positive_prob":0.73, //表示属于积极类别的概率
    "negative_prob":0.27  //表示属于消极类别的概率
    }
    ]
}

文章标签

文章标签服务能够针对网络各类媒体文章进行快速的内容理解，根据输入含有标题的文章，输出多个内容标签以及对应的置信度，用于个性化推荐、相似文章聚合、文本内容分析等场景。

title = "iphone手机出现“白苹果”原因及解决办法，用苹果手机的可以看下"

content = "如果下面的方法还是没有解决你的问题建议来我们门店看下成都市锦江区红星路三段99号银石广场24层01室。"

""" 调用文章标签 """
client.keyword(title, content);

文章标签请求参数详情

参数名称	是否必选	类型	说明
title	是	string	篇章的标题，最大80字节
content	是	string	篇章的正文，最大65535字节

文章标签返回数据参数详情

参数	是否必选	类型	说明
items	是	array(object)	关键词结果数组，每个元素对应抽取到的一个关键词
+tag	是	string	关注点字符串
+score	是	number	权重(取值范围0~1)

文章标签返回示例

{
    "log_id": 4457308639853058292,
    "items": [
    {
        "score": 0.997762,
        "tag": "iphone"
    },
    {
        "score": 0.861775,
        "tag": "手机"
    },
    {
        "score": 0.845657,
        "tag": "苹果"
    },
    {
        "score": 0.83649,
        "tag": "苹果公司"
    },
    {
        "score": 0.797243,
        "tag": "数码"
    }
    ]
}

文章分类

对文章按照内容类型进行自动分类，首批支持娱乐、体育、科技等26个主流内容类型，为文章聚类、文本内容分析等应用提供基础技术支持。

title = "欧洲冠军杯足球赛"

content = "欧洲冠军联赛是欧洲足球协会联盟主办的年度足球比赛，代表欧洲俱乐部足球最高荣誉和水平，被认为是全世界最高素质、最具影响力以及最高水平的俱乐部赛事，亦是世界上奖金最高的足球赛事和体育赛事之一。"

""" 调用文章分类 """
client.topic(title, content);

文章分类请求参数详情

参数名称	是否必选	类型	说明
title	是	string	篇章的标题，最大80字节
content	是	string	篇章的正文，最大65535字节

文章分类返回数据参数详情

参数名称	类型	详细说明
item	object	分类结果，包含一级与二级分类
+lv1_tag_list	array of objects	一级分类结果
+lv2_tag_list	array of objects	二级分类结果
++score	float	类别标签对应得分，范围0-1
++tag	string	类别标签

文章分类返回示例

{
    "log_id": 5710764909216517248,
    "item": {
    "lv2_tag_list": [
    {
    "score": 0.895467,
    "tag": "足球"
    },
    {
    "score": 0.794878,
    "tag": "国际足球"
    }
    ],
    "lv1_tag_list": [
    {
    "score": 0.88808,
    "tag": "体育"
    }
    ]
    }
}

错误信息

错误返回格式

若请求错误，服务器将返回的JSON文本包含以下参数：

error_code：错误码。
error_msg：错误描述信息，帮助理解和解决发生的错误。

错误码

错误码	错误信息	描述
4	Open api request limit reached	集群超限额
14	IAM Certification failed	IAM鉴权失败，建议用户参照文档自查生成sign的方式是否正确，或换用控制台中ak sk的方式调用
17	Open api daily request limit reached	每天流量超限额
18	Open api qps request limit reached	QPS超限额
19	Open api total request limit reached	请求总量超限额
100	Invalid parameter	无效参数
110	Access token invalid or no longer valid	Access Token失效
111	Access token expired	Access token过期
282000	internal error	服务器内部错误，请再次请求，如果持续出现此类错误，请通过QQ群（632426386）或工单联系技术支持团队。
282002	input encoding error	编码错误，请使用GBK编码
282004	invalid parameter(s)	请求中包含非法参数，请检查后重新尝试
282130	no result	当前查询无结果返回，出现此问题的原因一般为：参数配置存在问题，请检查后重新尝试
282131	input text too long	输入长度超限，请查看文档说明
282133	param {参数名} not exist	接口参数缺失
282300	word error	word不在算法词典中
282301	word_1 error	word_1提交的词汇暂未收录，无法比对相似度
282302	word_2 error	word_2提交的词汇暂未收录，无法比对相似度
282303	word_1&word_2 error	word_1和word_2暂未收录，无法比对相似度

pynlpir

发表于 2018-04-19

提供者：刘晓
地址：http://ictclas.nlpir.org/

简介

PyNLPIR是NLPIR / ICTCLAS中文分词软件的Python包装器
NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词；词性标注；命名实体识别；用户词典功能；支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取。
本文主要介绍Python版本—PyNLPIR 。

PyNLPIR允许使用NLPIR轻松地对中文文本进行分类，NLPIR是最受人们关注的中文文本分析器之一。

安装

PyNLPIR被设计为在Python 2.7或3上运行。由于包含了NLPIR库文件，它只能在Windows，GNU / Linux或macOS上运行。

Pip 安装：

$ pip install pynlpir
$ pynlpir update

从源代码安装：

如果你想手动安装PyNLPIR：

从https://pypi.org/project/PyNLPIR/页面下载最新版本。
解压文件。
从目录PyNLPIR-XX中，运行python setup.py install
运行pynlpir 更新以下载最新的许可证文件。

这会在Python 站点包目录中安装PyNLPIR 。

安装开发版本：

PyNLPIR的代码托管在GitHub上。首先安装开发版，确保安装了Git 。然后运行：

$ git clone git：//github.com/tsroten/pynlpir.git
$ pip install -e pynlpir
$ pynlpir update

这会将PyNLPIR目录链接到你的站点包目录。pynlpir 更新将从NLPIR项目下载最新的许可证。

运行测试：

运行测试很容易。下载并解压缩PyNLPIR的源代码后，从PyNLPIR的源代码目录中运行以下代码：

$ python setup.py 测试

如果要使用不同版本的Python运行测试，请安装并运行tox：

$ pip安装tox
 $ tox

使用教程

有两种使用PyNLPIR的方法：直接使用PyNLPIR提供的ctypes接口或使用PyNLPIR的辅助函数。该ctypes的界面更广泛，更严格。辅助函数很容易使用，但不提供对每个NLPIR函数的访问。也可以使用这两种方法的混合。首先，让我们看看辅助函数。

PyNLPIR助手函数
辅助函数位于PyNLPIR的init.py文件中，因此可以通过直接导入pynlpir来访问它们。

初始化NLPIR
导入PyNLPIR会自动加载NLPIR API库：

import pynlpir

一旦它被导入，调用open（）来告诉NLPIR打开数据文件并初始化API。有关指定其他数据目录的信息，请参阅open（）的文档。

pynlpir.open()

默认情况下，输入被假定为unicode或UTF-8编码。如果您想使用不同的编码（例如GBK或BIG5），请在调用open（）时使用encoding关键字参数：

pynlpir.open(encoding='big5')  
#Tip:无论指定什么编码，都可以将unicode字符串传递给 pynlpir函数。

PyNLPIR的辅助函数总是返回unicode字符串。
一旦初始化了NLPIR，就可以开始分割和分析文本。

细分文本：
让我们分段一个冗长的句子：

s = 'NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统，从2009年开始，为了和以前工作进行大的区隔，并推广NLPIR自然语言处理与信息检索共享平台，调整命名为NLPIR分词系统。'
pynlpir.segment(s)

# Sample output: [('NLPIR', 'noun'), ('分词', 'verb'), ('系统', 'noun'), ('前身', 'noun'), ('为', 'preposition'), ('2000年', 'time word'), ('发布', 'verb'), . . . ]

如果不想词性标注，segment（）中的参数pos_tagging设置为False：

pynlpir.segment(s, pos_tagging=False)

# Sample output: ['NLPIR', '分词', '系统', '前身', '为', '2000年', '发布', . . . ]

还可以自定义如何显示词性标签。默认情况下，只使用最通用的词性名称部分，即父母（例如 ‘名词’，而不是’转录地名’）。如果希望使用最具体的演讲名称部分，即儿童，请将pos_names设置为’child’：

pynlpir.segment(s, pos_names='child')

如果你想要了解关于词性标签的更多信息，你可以设置 pos_names为’all’，并且返回一个词性层次结构（例如， ‘noun：toponym：transcribed toponym’）：

pynlpir.segment(s, pos_names='all')

默认情况下，词性标记以英语返回。如果您希望看到中文（例如’名词’而不是’名词’），请将pos_english设置为False：

pynlpir.segment(s, pos_english=False)

获取关键词:
另一个有用的函数是get_key_words（）：

pynlpir.get_key_words(s, weighted=True)
[('NLPIR', 2.08), ('系统', 1.74)]

get_key_words（）分析给定的中文文本字符串并返回NLPIR认为关键字的单词。如果权重为 True，则关键字的权重也作为浮点数返回。

关闭API:
现在我们已经看了PyNLPIR辅助函数的简要介绍，让我们看看如何关闭API。

当使用PyNLPIR时，你可以通过调用close（）来释放分配的内存：

pynlpir.close()

ctypes NLPIR接口:

pynlpir.nlpir通过 ctypes提供对NLPIR’C函数的访问。你可以直接调用它们，而不用担心上面的辅助函数。这些函数的工作方式与C语言的对应函数几乎完全相同。

pynlpir.nlpir包含由NLPIR导出的调用其许多函数（例如编码和词性常量）所需的模块级常量。有关更多信息，请参阅 pynlpir.nlpir上的API页面。

以下各节不提供关于如何使用NLPIR的全面说明。NLPIR有它自己的文档。以下部分提供了有关如何开始使用PyNLPIR的基本信息，前提是您熟悉NLPIR。如果你不是，请务必查看下面链接的文档。

分词与词性标注示例：
需要注意的是，使用pynlpir的时候，首先要初始化，也就是需要先open（pynlpir.open()），当执行完成后需要对应的关闭（pynlpir.close()）
代码示例：

# coding:utf-8

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

import pynlpir

pynlpir.open()
s = '因为我比较懒,所以我就只是修改了这句话,代码还是原博客的'
segments = pynlpir.segment(s)
for segment in segments:
     print segment[0], '\t', segment[1]

pynlpir.close()

运行结果:

因为  preposition
我   pronoun
比较  adverb
懒   adjective
,   punctuation mark
所以  conjunction
我   pronoun
就   adverb
只   adverb
是   verb
修改  verb
了   particle
这   pronoun
句   classifier
话   noun
,   punctuation mark
代码  noun
还   adverb
是   verb
原   distinguishing word
博客  noun
的   particle

Process finished with exit code 0

NLPIR还可以更加详细的输出词性信息，做如下修改：

segments = pynlpir.segment(s)
改为：
segments = pynlpir.segment(s,pos_names='all')
你可以在segment时同时配置如下参数，调整结果，请自行选择：
pos_names='all' / 'child' / 'parent' #默认是parent， 表示获取该词性的最顶级词性，child表示获取该词性的最具体的信息，all表示获取该词性相关的所有词性信息，相当于从其顶级词性到该词性的一条路径
pos_english=False # 词性标注结果以中文的形式显示
pos_tagging=False # 只做分词，而不显示词性

运行后可以得到更加详细的结果：

因为  preposition
我   pronoun:personal pronoun
比较  adverb
懒   adjective
,   punctuation mark:comma
所以  conjunction
我   pronoun:personal pronoun
就   adverb
只   adverb
是   verb:verb 是
修改  verb
了   particle:particle 了/喽
这   pronoun:demonstrative pronoun:predicate demonstrative pronoun
句   classifier
话   noun
,   punctuation mark:comma
代码  noun
还   adverb
是   verb:verb 是
原   distinguishing word
博客  noun:other proper noun
的   particle:particle 的/底

关键词提取代码：

# coding:utf-8

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

import pynlpir

pynlpir.open()
s = '因为我比较懒,所以我就只是修改了这句话,代码还是原博客的'
print '关键词测试:\n'
key_words = pynlpir.get_key_words(s, weighted=True)
for key_word in key_words:
    print key_word[0], '\t', key_word[1]

pynlpir.close()

运行后提取出来的关键词应该是：

关键词测试:

修改  2.0
代码  2.0
博客  2.0

Process finished with exit code 0

本篇工具介绍参考：
https://blog.csdn.net/MebiuW/article/details/52232562?locationNum=12
http://www.shareditor.com/blogshow/?blogId=74

概述

数据集特征

使用

相关论文

概述

数据来源:http://www.gooseeker.com/doc/thread-4667-1-1.html

数据集特征

数据来源：http://blog.sina.com.cn/s/blog_4db72f1501010zs0.html

相关论文

概述

数据来源：https://www.zhihu.com/question/63383992/answer/222718972

数据集特征

数据来源：

相关论文

概述

数据来源:https://www.zhihu.com/question/63383992/answer/222718972

相关论文

概述

数据集特征

相关论文

概述

相关论文

概述

数据集特征

相关论文

概述

数据来源：https://www.jianshu.com/p/be23b3870d2e

数据集特征

数据来源：http://archive.ics.uci.edu/ml/datasets/Wine

相关论文

下载地址

简介

安装

使用教程

接口说明

简介

安装

使用教程