世界语言资源平台

  • 首页
  • 标签
  • 归档

Chars74K

发表于 2018-05-05

提供者:刘唯

地址

http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/

简介

Chars74K数据集是一个经典的字符识别数据集,主要包括了英文字符与坎那达语(Kannada)字符。数据集一共有74K幅图像,所以叫Chars74K。

英文数据集依据图像采集方式分为三个类别:

  1. 自然环境下采集的字符图像数据集;
  2. 手写字符图像数据集;
  3. 计算机不同字体合成的字符图像数据集。

这里只介绍英文手写字符数据集。该数据集包含了52个字符类别(A-Z,a-z)和10个数字类别(0-9)一共62个类别,3410副图像,由55个志愿者手写完成。

使用说明

该数据集在EnglishHnd.tgz这个文件中(English Hand writing),图像主要在Img这个文件夹下,按照Samples001-Samples062的命名方式存储在62个子文件夹下,每个子文件夹有55张图像,都为PNG格式,分辨率为1200*900,三通道RGB图像。

数据集作者提供了matlab的读入方式,在Lists.tgz文件里的English/Hnd文件夹下有个lists_var_size.MAT文件来进行数据读入,但该文件只是建立了一个结构体(struct),提供了相关信息,图像的实际数据还是要自己写代码读入。

数据集作者已经将训练数据与测试数据分成了30个不同的子集,就是以上的TRNind和TSTind,这里面存储的是图像的索引(Index),但这里要注意的是有些训练数据子集不是930个,后面有些数据是0。

以下的matlab代码在作者提供的mat文件基础上,将一个子集的训练数据、测试数据以及标签(实际分类)等信息读入,图像数据读入为cell数组,标签数据读入为uint16数组(需要注意的是标签1代表实际的数字0,标签2代表实际的数字1,依此类推)。

相关论文

1.Character Recognition in Natural.Teófilo Emídio de Campos, Bodla Rakesh Babu, Manik Varma.
2.Images.[C]// Visapp 2009 - Proceedings of the Fourth International Conference on Computer Vision Theory and Applications, Lisboa, Portugal, February. 2009:273-280.

PASCAL VOC数据集

发表于 2018-05-05

提供者:杜成玉
下载地址:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

概述

数据来源:http://www.52ml.net/20458.html

PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。
数据集大小:2GB

相关论文

[1]Vicente S, Carreira J, Agapito L, et al. Reconstructing pascal voc[C]//Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. IEEE, 2014: 41-48.
[2]Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3431-3440.
[3]Razavian A S, Azizpour H, Sullivan J, et al. CNN features off-the-shelf: an astounding baseline for recognition[C]//Computer Vision and Pattern Recognition Workshops (CVPRW), 2014 IEEE Conference on. IEEE, 2014: 512-519.

Phonetically Rich Urdu Speech Corpus

发表于 2018-05-05

提供者:朱述承

简介

乌尔都语语音语料库由70分钟的转录阅读语音组成,其中包括708个代表乌尔都语所有音位和三音组合的句子(来源于乌尔都语新闻文章的1800万字的语料)。它由10,101个表征和5,656个独特的单词组成。除了覆盖了乌尔都语全部的语音外,该语料库还保证了音位平衡。它也提供三音位的覆盖,但这并不是平衡的。该语料库还包含60个独特的电话语料和42,289个电话事件语料。这个语料库中包含的句子都是由训练有素的语言学家手动创建的,以适应乌尔都语独特的单词特征(使用集合封面算法进行选择)并尽可能防止附加单词。因此,虽然在语法上是正确的,但在某些情况下,句子中的单词选择可能是不寻常的。

在线访问

http://csalt.itu.edu.pk/PRUSCorpus/Online.html

下载网址

http://csalt.itu.edu.pk/PRUSCorpus/index.html

相关论文

1 Agha Ali Raza, Sarmad Hussain, Huda Sarfraz, Inam Ullah, Zahid Sarfraz, An ASR System for Spontaneous Urdu Speech, Oriental COCOSDA 2010 conference, Nov. 24-25, 2010, Katmandu, Nepal.
2 Agha Ali Raza, Sarmad Hussain, Huda Sarfraz, Inam Ullah, Zahid Sarfraz, Design and development of phonetically rich Urdu speech corpus, Proceedings of O-COCOSDA’09 and IEEE Xplore; O-COCOSDA’09, 10-13 Aug 2009, School of Information Science and Engineering of Xinjiang University, Urunqi, China (URL: http://o-cocosda2009.xju.edu.cn).

IcePaHC

发表于 2018-05-05

提供者:朱述承

简介

冰岛语解析历史语料库(IcePaHC)是一个历史语料库,具有从12世纪到现代所有时期的冰岛语书面语样本。该语料库大多与UPenn开发的历史英语语料库兼容。对于历史文本来说,这里的现代化拼写是为了适应音位变化。

下载地址

http://www.linguist.is/icelandic_treebank/Download

第9版内容

共计1,002,390词
1150: Fyrsta málfræðiritgerðin (The First Grammatical Treatise) (4422 words)
1150: Íslensk hómilíubók (Icelandic book of homilies) (40943 words)
1210: Jarteinabók (10328 words)
1210: Þorláks saga helga (10868 words)
1250: Íslendinga saga (22805 words)
1250: Þetubrot Egils Sögu (Theta manuscript of Egils Saga) (3461 words)
1260: Jómsvíkinga saga (21133 words)
1270: Grágás. Lagasafn íslenska þjóðveldisins. (6203 words)
1275: Morkinskinna (25064 words)
1300: Alexanders saga (23356 words)
1310: Grettis saga Ásmundarsonar (20563 words)
1325: Árna saga biskups (19968 words)
1350: Bandamanna saga (Möðruvallabók text) (13618 words)
1350: Finnboga saga ramma (23036 words)
1350: Mörtu saga og Maríu Magdalenu (17241 words)
1400: Gunnars saga Keldugnúpsfífls (8770 words)
1400: Gunnars saga Keldugnúpsfífls - Part 2 (3164 words)
1400: Víglundar saga (13453 words)
1450: Bandamanna saga (Konungsbók text) (11560 words)
1450: Ectors saga (21063 words)
1450: Júditarbók (6562 words)
1450: Vilhjálms saga Sjóðs (23132 words)
1475: Miðaldaævintýri (18084 words)
1480: Jarlmanns saga og Hermanns (14482 words)
1525: Erasmus saga (Reykjahólabók) (8589 words)
1525: Georgíus saga (Reykjahólabók) (20092 words)
1540: Nýja Testamenti Odds Gottskálkssonar (The New Testament of Oddur Gottskálksson), Postulanna Gjörningar (Acts of the Apostles) (16550 words)
1540: Nýja Testamenti Odds Gottskálkssonar (The New Testament of Oddur Gottskálksson), S. Jóhannis Guðspjöll (Gospel of St. John) (20925 words)
1593: Eintal sálarinnar við sjálfa sig (23327 words)
1611: Okur (15481 words)
1628: Reisubók séra Ólafs Egilssonar (17199 words)
1630: Fimmtíu heilagar hugvekjur Meditationes sacrae (12698 words)
1650: Illuga saga Tagldarbana (20921 words)
1659: Píslarsaga séra Jóns Magnússonar (9825 words)
1661: Reisubók Jóns Ólafssonar Indíafara (23031 words)
1675: Móðars þáttur (3845 words)
1675: Söguþáttur af Ármanni og Þorsteini gála (11228 words)
1675: Um ætt Magnúsar Jónssonar (3187 words)
1680: Sögu-þáttur um Skálholts biskupa fyrir og um siðaskiptin. (10281 words)
1720: Vídalínspostilla (23016 words)
1725: Biskupasögur Jóns prófasts Halldórssonar í Hítardal (22297 words)
1745: Nikulás Klím (22038 words)
1790: Fimmbræðra saga (18860 words)
1791: Ævisaga síra Jóns Steingrímssonar (22369 words)
1830: Hellismanna saga (14988 words)
1835: Um eðli og uppruna jarðarinnar (On the Nature and Origin of the Earth) (3257 words)
1850: Piltur og stúlka (17844 words)
1859: Fimtíu hugvekjur út af pínu og dauða Drottins vors Jesú Krists (20530 words)
1861: Sagan af Heljarslóðarorrustu (20336 words)
1882: Brynjólfur Sveinsson biskup (27342 words)
1883: Hans Vöggur (1927 words)
1888: Grímur kaupmaður deyr (7241 words)
1888: Vordraumur (10753 words)
1902: Upp við fossa (20647 words)
1907: Leysing (20613 words)
1908: Ofurefli (20262 words)
1920: Árin og eilífðin. Prédikanir eftir Harald Níelsson (21234 words)
1985: Margsaga (22295 words)
1985: Sagan öll (20980 words)
2008: Ofsi (21144 words)
2008: Segðu mömmu að mér líði vel - saga um ástir - (21958 words)

使用说明

如果您使用Windows,最简单的方法就是下载IcePaHC for Windows并按照屏幕上的说明进行操作。适用于Windows的IcePaHC使用CorpusSearch运行查询,因此除了此网页外,还请阅读CorpusSearch文档。如果您使用IcePaHC for Windows,则无需输入启动程序的命令,只需单击桌面上的IcePaHC图标即可。如果您没有安装Java,安装将引导您进入Java下载页面。

由于语料库使用标记的包围格式,因此它与采用这种注释的程序兼容。我们推荐使用由UPenn的Beth Randall开发的CorpusSearch程序。如果您已将语料库复制到目录“/ home / chomsky / icepahc”并将CorpusSearch jar文件保存在“/ home / chomsky / corpussearch”中,则可以使用以下命令来使用语料库中的查询来搜索语料库名为datsubj.q的文本文件。

java -classpath /home/chomsky/corpussearch/CS_2.002.75.jar csearch/CorpusSearch datsubj.q /home/chomsky/icepahc/*.psd

让我们假设datsubj.q是一个查询,它挑选出所有的和主语。该文件可能如下所示:

node: IP*

query: (IP idoms NP-SBJ) AND (NP-SBJ idoms -D)

果使用这样的文件运行上面的命令,CorpusSearch将返回一个名为datsubj.out的文件,其语料库中的所有语句都包含配词主题。阅读语料库的CorpusSearch文档和注释准则,了解如何做更多。

请注意,将会有方法通过创建别名等来简化命令,但这在不同的操作系统上会有所不同。阅读CorpusSearch文档入门以获取更多信息。

HSE Thai Corpus

发表于 2018-05-05

提供者:朱述承

简介

HSE泰语语料库——现代泰语文本语料库包含5000万表征的文本,从各种泰国网站(主要是新闻网站)收集的。每个表征都被标注了它的英文翻译和词性标签。还有一些其他的语法标签也被标注到了合适的地方。 HSE泰语语料库可以由泰语和任何讲英语的用户使用,因为每个被标注的词都被赋予了英语翻译。对于语言学家和基本上任何对泰语感兴趣的人来说,这是一个有用的工具。该语料库适用于词汇,句法和其他的时间性研究,并且由于其数量庞大,可以为研究人员提供大量的数据。该语料库采用了EANC的搜索引擎。用户友好和灵活的搜索系统允许用户通过语法和POS标签以及翻译,当然还有实际的字形来收集材料。为了让非泰语的人更容易理解和使用语料库中的文本,我们决定在每个句子中用空格分隔单词。

访问地址

http://web-corpora.net/ThaiCorpus/search/

Corpus of Old Literary Finnish

发表于 2018-05-05

提供者:朱述承

简介

芬兰语古籍语料库的内容来源于写于1543年至1810年间的芬兰文本,可浏览并可在网上搜索。该集合包含圣经翻译和宗教文本(例如所有Mikael Agricola的芬兰作品),法律文本,诗歌以及有关农业,自然,健康等的文本。它被编译用于词典使用。

地址

https://korp.csc.fi/#?corpus=vks_agricola,vks_biblia,vks_lait,vks_saarnat,vks_almanakat,vks_bjorkqvist,vks_frosterus,vks_ganander,vks_lizelius,vks_lpetri,vks_varia,vks_virret&stats_reduce=word&cqp=%5B%5D

大小

167400句
4133202词

类型

书面语

中文文本分类数据集THUCNews

发表于 2018-05-01

提供者:李华勇

地址:http://thuctc.thunlp.org/

简介

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。

我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。

数据集构成

  • THUCTC_java_v1_run.zip

    THUCTC可执行的jar包(Java版) 1.2MB 2016-01-25

  • THUCTC_java_v1.zip

    THUCTC可导入的jar包,包括源代码(Java版) 1.1MB 2016-01-25

  • THUCNews.zip

    THUCNews中文文本数据集 1.56GB 2016-01-25

  • THUCNews_model.zip

    使用THUCNews中文文本数据集训练出来的THUCTC模型,可直接使用;参数为-d1 0.8 -d2 0.2 -f 20000 2.6MB 2016-12-18

    下载地址

    http://thuctc.thunlp.org/message

    相关论文

  • Jingyang Li, Maosong Sun. Scalable Term Selection for Text Categorization. Proc. of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Republic, 2007, pp. 774-782.

  • Jingyang Li, Maosong Sun, Xian Zhang. A Comparison and Semi-Quantitative Analysis of Words and Character-Bigrams as Features in Chinese Text Categorization. Proc. of the 2006 Joint Conference of the International Committee on Computational Linguistics and the Association for Computational Linguistics (COLING-ACL 2006), Sydney, Australia, 2006, pp. 545-552.

THUCTC

发表于 2018-05-01

提供者:李华勇

地址:http://thuctc.thunlp.org/

简介

THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。

文本分类通常包括特征选取、特征降维、分类模型学习三个步骤。

如何选取合适的文本特征并进行降维,是中文文本分类的挑战性问题。我组根据多年在中文文本分类的研究经验,在THUCTC中选取二字串bigram作为特征单元,特征降维方法为Chi-square,权重计算方法为tfidf,分类模型使用的是LibSVM或LibLinear。

THUCTC对于开放领域的长文本具有良好的普适性,不依赖于任何中文分词工具的性能,具有准确率高、测试速度快的优点。

使用方法

我们提供了两种方式运行工具包:

  1. 使用java开发工具,例如eclipse,将包括lib\THUCTC_java_v1.jar在内的lib文件夹下的包导入自己的工程中,仿照Demo.java程序调用函数即可。

  2. 使用根目录下的THUCTC_java_v1_run.jar运行工具包。

    使用命令 java -jar THUCTC_java_v1_run.jar + 程序参数

运行参数

  • [-c CATEGORY_LIST_FILE_PATH] 从文件中读入类别信息。该文件中每行包含且仅包含一个类别名称。
  • [-train TRAIN_PATH] 进行训练,并设置训练语料文件夹路径。该文件夹下每个子文件夹的名称都对应一个类别名称,内含属于该类别的训练语料。若不设置,则不进行训练。
  • [-test EVAL_PATH] 进行评测,并设置评测语料文件夹路径。该文件夹下每个子文件夹的名称都对应一个类别名称,内含属于该类别的评测语料。若不设置,则不进行评测。也可以使用-eval。
  • [-classify FILE_PATH] 对一个文件进行分类。
  • [-n topN] 设置返回候选分类数,按得分大小排序。默认为1,即只返回最可能的分类。
  • [-svm libsvm or liblinear] 选择使用libsvm还是liblinear进行训练和测试,默认使用liblinear。
  • [-l LOAD_MODEL_PATH] 设置读取模型路径。
  • [-s SAVE_MODEL_PATH] 设置保存模型路径。
  • [-f FEATURE_SIZE] 设置保留特征数目,默认为5000。
  • [-d1 RATIO] 设置训练集占总文件数比例,默认为0.8。
  • [-d2 RATIO] 设置测试集占总文件数比例,默认为0.2。
  • [-e ENCODING] 设置训练及测试文件编码,默认为UTF-8。
  • [-filter SUFFIX] 设置文件后缀过滤。例如设置“-filter .txt”,则训练和测试时仅考虑文件名后缀为.txt的文件。

    样例程序

    我们随工具包提供了一个调用THUCTC的样例代码Demo.java,其中实现了三种功能:
  1. 对文本进行训练并测试(runTrainAndTest);
  2. 读取已经训练好的模型,对文件进行分类(runLoadModelAndUse);
  3. 按照自己的想法添加训练文件,训练模型(AddFilesManuallyAndTrain);

相关论文

  • Jingyang Li, Maosong Sun. Scalable Term Selection for Text Categorization. Proc. of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Republic, 2007, pp. 774-782.

  • Jingyang Li, Maosong Sun, Xian Zhang. A Comparison and Semi-Quantitative Analysis of Words and Character-Bigrams as Features in Chinese Text Categorization. Proc. of the 2006 Joint Conference of the International Committee on Computational Linguistics and the Association for Computational Linguistics (COLING-ACL 2006), Sydney, Australia, 2006, pp. 545-552.

BosonNLP

发表于 2018-05-01

提供者:李华勇

简介

玻森中文语义开放平台提供使用简单、功能强大、性能可靠的中文自然语言分析云服务。

互联网时代信息无处不在,我们日常所接触的大量信息例如微博、社交媒体网站的帖子、消费者点评、新闻、销售人员的拜访记录以及可以转换成文本的语音内容,这些都是常见的非结构化数据来源。

根据2011年IDC的调查,非结构化数据将占未来十年所创造数据的90%。作为一个尚未得到充分开发的信息源,非结构化数据分析可以揭示之前很难或无法确定的重要相互关系。

非结构化数据分析能够揭示潜藏在文本当中的趋势和关联,为商业决策、研究行业趋势和热点内容分析提供有力支持。

玻森团队致力于打造最出色的中文语义分析技术,通过自主研发的中文分词、句法分析、语义联想和实体识别技术,结合海量行业语料的不断积累,为企业和广大开发者提供简单、强大、可靠的中文语义分析云端API。

功能说明

情感分析Sentiment Analysis

情感分析指的是对文本中情感的倾向性和评价对象进行提取的过程。

玻森NLP情感引擎提供行业领先的篇章级情感分析。基于上百万条社交网络平衡语料和数十万条新闻平衡语料的机器学习模型,结合自主开发的半监督学习技术,正负面情感分析准确度达到80%~85% 。经过行业数据标注学习后准确率可达85%~90%。

信息分类Classification

文本信息分类将文本按照预设的分类体系进行自动区分。

玻森提供定制的文本分类API服务,有着广泛的商业应用前景。

例如,通过社交网络挖掘商业情报和潜在销售机会,企业内文本数据分析,海量数据筛选,资讯分类和自动标签预测等。

基于玻森自主研发的语义联想、句法分析等技术,通过半监督学习引擎的训练,只需要进行少量的代表性数据标注,就可以达到商用级别的预测准确率。

实体识别Named Entity Recognition

实体识别用于从文本中发现有意义的信息,例如人名、公司名、产品名、时间、地点等。 实体识别是语义分析中的重要的基础,是情感分析、机器翻译、语义理解等任务中的重要步骤。

BosonNLP实体识别引擎基于自主研发的结构化信息抽取算法,F1分数达到81%,相比于StanfordNER高出7个百分点。通过对行业语料的进一步学习,可以达到更高的准确率。

典型意见Opinion Extraction

典型意见引擎将消费者意见进行单句级别的语义聚合,提取出有代表性的意见。可用于消费者调研、电商点评分析和社会热点事件的意见整理。

基于语义的分析引擎在准确率上有较大的突破,能将含义接近但表述不同的意见聚合在一起,并可通过参数调节聚类的大小获得更好的效果,与人工整理相比更加快速、准确 。

文本聚类Clustering

相似文本聚类指的是机器自动对给定的文本进行话题聚类,将语义上相似的内容归为一类,有助于海量文档、资讯的整理,和话题级别的统计分析。

玻森自主研发的文本聚类算法:

一方面加入了对语义的扩展,保证同一个意见的不同表述可以被归纳在一起。

另一方面又避免了传统的K-means等算法需要预先设定聚类总数的困难,基于数据的分布自动选择合适的阈值。

关键词提取Keyword Extraction

关键词提取引擎从一篇或多篇文本中提取出有代表性的关键词。

玻森的关键词提取技术综合考虑词语在文本中的频率,和词语在千万级背景数据中的频率,选择出最具有代表性的关键词并给出相应权重。

使用方法

BosonNLP引擎以REST API的方式提供服务,任何编程语言都可以轻松使用。

在正式开始前,您需要首先 注册玻森账号。完成后,您将在 控制台 的底部看到您的API Token (密钥),该密钥将用于身份验证。

这里将以一个简单的情感分析任务为例,介绍BosonNLP的使用。

我们从 cURL 开始。

打开一个命令行窗口并输入以下命令(不包含 $ ),将 YOUR_API_TOKEN 替换为您注册后获得的API密钥。

1
2
3
4
5
$ curl http://api.bosonnlp.com/sentiment/analysis \
-X POST -H "Content-Type: application/json" -H "X-Token: YOUR_API_TOKEN" \
--data "[\"自由思考比畅所欲言更重要。\", \"公司最大的困扰,就是无法测量每个员工的贡献度。\"]"

[[0.9730778829163206, 0.026922117083679472], [0.4668568874082243, 0.5331431125917757]]

以上这段代码使用了玻森的 情感分析 引擎,传入了两段短文本内容进行分析。返回的内容为 json 格式,情感分析结果分别为 非负面 和 负面 概率组成的列表。

HTTP Header详解

在 cURL 命令中加入 -i 参数,会看到类似下面的结果。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
$ curl http://api.bosonnlp.com/sentiment/analysis -i \
-X POST -H "Content-Type: application/json" -H "X-Token: YOUR_API_TOKEN"\
--data "[\"自由思考比畅所欲言更重要。\", \"公司最大的困扰,就是无法测量每个员工的贡献度。\"]"

HTTP/1.1 200 OK
Date: Sun, 04 May 2014 08:21:01 GMT
Content-Type: application/json
Content-Length: 6
Connection: keep-alive
X-Rate-Limit-Limit: 100
X-Rate-Limit-Remaining: 97
X-Rate-Limit-Reset: 1399192200
X-Count-Limit-Limit: 500
X-Count-Limit-Remaining: 480
X-Count-Limit-Reset: 1399219200
Server: nginx/1.5.11
X-Request-Id: 0ae45f04-701d-48d8-a84e-d08f18e489ef

[[0.9730778829163206, 0.026922117083679472], [0.4668568874082243, 0.5331431125917757]]

在返回的 HTTP Header 当中,有一些很有趣的内容。和你想的一样,BosonNLP 的返回内容为 JSON 格式,因此 Content-Type 是 application/json 。

X- 开头的是自定义HTTP头,由BosonNLP生成,其中的信息非常有用。例如,

X-Request-Id 是对每个请求生成的唯一ID,用于在引擎内部跟踪请求。

X-Count-Limit-Remaining 是当前可用的调用次数。

X-Count-Limit-Reset 是调用次数重置的时间。当前时间窗口中调用次数用尽时,等待到这里指定的时间才可以恢复使用。

使用 Python SDK

如果您使用 Python 语言,建议通过 SDK 的方式使用 BosonNLP。

BosonNLP Python SDK 是由 BOSON 官方支持的开发者工具包,提供了对 REST 接口的简化封装。

最简便的安装方式是通过 pip 。

1
$ pip install -U bosonnlp

安装成功后,编写以下Python脚本,并保存为 sentiment.py 。在代码中,将 YOUR_API_TOKEN 更换为您的API密钥。

1
2
3
4
5
6
# -*- coding: utf-8 -*-
from __future__ import print_function, unicode_literals
from bosonnlp import BosonNLP

nlp = BosonNLP('YOUR_API_TOKEN')
print(nlp.sentiment('大众深陷断轴门事件'))

运行。

1
2
$ python sentiment.py
[[0.28867338699939415, 0.7113266130006058]]

通过SDK调用,对以上内容的情感分析结果为 负面概率较大。

相关资料

暂无

腾讯文智自然语言处理NLP

发表于 2018-05-01

提供者:李华勇

地址:https://cloud.tencent.com/product/nlp#features

简介

腾讯文智自然语言处理(Natural Language Processing)基于并行计算、分布式爬虫系统,结合独特的语义分析技术,一站满足NLP、转码、抽取、数据抓取等需求。基于文智API可实现搜索、推荐、舆情、挖掘等功能。文智同时支持定制化语义分析方案。

功能说明

词法分析

提供智能分词、词性标注、命名实体识别功能。用户无需担心诸如新词发现、歧义消除、调用性能等词法分析难题。

句法分析

支持短串纠错、同义词扩展。依存文法,长文本纠错也即将推出。纠错同义词可实现定制化服务,打造专属词库。

篇章分析

支持短文关键词提取、情感分析、自动摘要、分类,以及批量文本的聚类分析。在舆情监控、话题监督、口碑分析等商业分析领域有非常重要的应用价值。

下载抽取转码

帮助用户一站式实现网页抓取、转码、结构化抽取功能。分布式爬虫系统可实现自动路由、url作弊识别、智能主题抓取等功能。

使用说明

腾讯文智自然语言处理(Natural Language Processing)基于并行计算、分布式爬虫系统,结合独特的语义分析技术,一站满足NLP、转码、抽取、数据抓取等需求。基于文智API可实现搜索、推荐、舆情、挖掘等功能。文智同时支持定制化语义分析方案。

腾讯云文智中文语义平台以SDK模块的方式提供服务,多种编程语言都可以轻松使用。在正式使用之前,您需要首先在腾讯云上注册文智账号。

公共参数

公共参数是用于标识用户和接口鉴权的参数, 每次请求均需要携带这些参数, 才能正常发起请求

调用demo

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
<?php
error_reporting(E_ALL ^ E_NOTICE);
require_once './src/QcloudApi/QcloudApi.php';

$config = array('SecretId' => '你在腾讯云上的SecretId',
'SecretKey' => '你在腾讯云上的SecretKey',
'RequestMethod' => 'POST',
'DefaultRegion' => 'gz');

$wenzhi = QcloudApi::load(QcloudApi::MODULE_WENZHI, $config);

$package = array("content"=>"李亚鹏挺王菲:加油!孩儿他娘。");

$a = $wenzhi->TextSentiment($package);

if ($a === false) {
$error = $wenzhi->getError();
echo "Error code:" . $error->getCode() . ".n";
echo "message:" . $error->getMessage() . ".n";
echo "ext:" . var_export($error->getExt(), true) . ".n";
} else {
var_dump($a);
}

echo "nRequest :" . $wenzhi->getLastRequest();
echo "nResponse :" . $wenzhi->getLastResponse();
echo "n";

相关资料

暂无

1…141516…22

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4