世界语言资源平台

  • 首页
  • 标签
  • 归档

JRC Names实体专有名词数据集

发表于 2018-03-07

提供者:卢梦依
下载地址:http://dataju.cn/Dataju/web/datasetInstanceDetail/78

简介

数据集概述

JRC Names 是一个跨语言实体名称语料库,该语料库包含了大量跨语言人名和组织名称(称之为“实体”),包括不同语言的实体名称,包括汉语、英语、拉丁语、希腊语、阿拉伯语、斯拉夫语、日本语等。2016年之后,JRC Names还关联了其它附加信息,如每个实体在每种语言中出现的频率和时间段等。

数据来源

https://ec.europa.eu/jrc/en/language-technologies/jrc-names。JRC Names 实体专有名词是欧洲媒体监控(EMM)通过每天分析约22万条新闻报道所产生的。从2004年以来,分析了数以百万计的新闻文章,最多可以使用21种语言,识别实体(主要是人员,组织,事件名称等)的名称,并检测其中的哪一种新发现的名字是彼此的变体拼写。因此,JRC Names 中的大多数命名变体都是在现实生活中采集的(包括频繁的拼写错误)。此外,对于实体集合的一个子集,软件会自动从维基百科的跨语言链接中提取许多其他语言(例如中文,泰语,日语,…)的拼写变体。对于非常频繁或重要的名称,另外手动验证命名实体资源。由于JRC名称主要是自动生成的,所以会包含一些错误。

文件类型

多个文件

文件大小

756.00Mb

用处

JRC实体专有名词,可用于查找命名实体,即使它们拼写不同,但它在计算机处理文本信息过程中也能识别,可用于例如,用于文本挖掘。该工具具有多种用途并解决了各种问题,其中包括:
1.当搜索数据库,互联网和其他存储库时,正确的名称是一个问题,因为通常找不到搜索名称的变体。这导致对文档,图像和视听内容的存储库的非最佳使用和利用。 JRC-Names允许标准化名称,从而改进检索;
2.机器翻译在翻译实体专有名词时也存在问题,因为它们不应像其他单词一样翻译;利用JRC-Names可以在翻译过程之前提取名称,并且可以用目标语言重新插入外语变体来解决这个问题;
3.两个不同语言中的实体列表通常用于学习音译规则;
4.实体可以在文本中识别和标记,以便在训练机器学习命名实体识别系统中直接利用; 5.数据来源于多国国家,可以减少不同国家观点的偏见; 6.命名实体识别对于意见挖掘的计算语言学任务,共同参考解析,总结,主题检测和跟踪,跨语言的相关文档的跨语言链接等都是有用的。

统计信息

JRC Names包含EMM实体数据库中一些重要的实体,如频繁搜索或手动验证或在维基百科上发现的实体。JRC名称的第一个版本(2011年9月)包含约205,000个不同的已知实体的名称,以及这些实体的大致相同数量的变体拼写。此外,它包含这些名称的许多形态上变形的变体。截至2016年3月,该资源已增至307,000个不同实体,另有333,000个变体。EMM每天都会识别新的名称,还可以从JRC的网页上每天下载包含最近发现的名称和名称拼写的文件。截至2011年7月,数据库包括27个不同脚本中拼写的名称。最常用的是拉丁语(包括英语和大多数其他欧洲语言),西里尔语(例如俄语和保加利亚语),阿拉伯语(包括波斯语),日语(汉语,平假名和片假名)和汉语汉语(简体中文)。JRC名称中的64%的名称没有额外的拼写变体。对于28%的名字,JRC名称有两到三个拼写。有3760个实体有10个拼写或更多,37个实体有超过100个拼写变体。具有最多拼写变体的名字是Muammar Gaddafi(413个拼写),Mikhail Saakashvili(256)和Mahmoud Ahmadinejad(246)。

相关论文

1.Steinberger Ralf, Bruno Pouliquen, Mijail Kabadjov, Jenya Belyaeva & Erik van der Goot (2011).
JRC-Names: A freely available, highly multilingual named entity resource. Proceedings of the 8th International Conference Recent Advances in Natural Language Processing (RANLP). Hissar, Bulgaria, 12-14 September 2011.
2.Ehrmann Maud, Guillaume Jacquet & Ralf Steinberger (2016). JRC-Names: Multilingual Entity Name Variants and Titles as Linked Data. Semantic Web Journal (March 2016).
3.STEINBERGER Ralf,ATKINSON Martin,GARCIA DOMINGO Teofilo,VAN DER GOOT Erik
LINGE Jens,MACMILLAN Charles,TANEV Hristo,VERILE Marco,WAGNER Gerhard(2017)
EMM: Supporting the Analyst by Turning Multilingual Text into Structured Data
4.JACQUET Guillaume,EHRMANN Maud,STEINBERGER Ralf,VAEYRYNEN Jaakko(2016).Cross-lingual linking of Multi-word Entities and their corresponding Acronyms.
5.王志娟, 李福现. 跨语言命名实体翻译对抽取的研究综述[J]. 计算机科学, 2017, 44(s1):14-18.
6.胡亚楠, 舒佳根, 钱龙华,等. 基于机器翻译的跨语言关系抽取[J]. 中文信息学报, 2013, 27(5):191-198.
7.吴丹, 何大庆, 陆伟. 跨语言信息检索中的命名实体识别与翻译[J]. 图书情报知识, 2012(3):13-19.

Echarts

发表于 2018-03-07

提供者:徐静怡、雷舒婷

一、下载地址

http://echarts.baidu.com/download.html

二、简介

ECharts,缩写来自Enterprise Charts,商业级数据图表,一个纯Javascript的图表库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器(IE6/7/8/9/10/11,chrome,firefox,Safari等),底层依赖轻量级的Canvas类库ZRender,提供直观,生动,可交互,可高度个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。

三、使用教程A

1、下载

进入官网,直接在下载页面下载完整版(其中包括所有的图表和组件)
下载后的结果是一个插件,只要将自己写的文档保存为.html格式,然后与插件放在同一个文件夹下,打开文档网页后即可 显示图表。

2、使用方式

直接创建文本文档,保存成.html格式即可。

(1)引入ECharts
ECharts3 开始不再强制使用 AMD 的方式按需引入,代码里也不再内置 AMD 加载器。因此引入方式简单了很多,只需 要像普通的 JavaScript 库一样用 script 标签引入。

代码如下:
<!DOCTYPE html>
<html>
<head>
    <meta charset="utf-8">
    <title>ECharts</title>
    <!-- 引入 echarts.js -->
    <script src="echarts.min.js"></script>
</head>

(2)绘图前为Echarts准备一个具体高宽的DOM容器
引入Echarts之后,还需要一个“画布”,就像我们写网页时,需要将整个页面作为“画布”,在上面确定 要“画”在左中右等。

代码如下:
<!-- 为ECharts准备一个具备大小(宽高)的Dom -->
<div id="main" style="width: 1000px;height:800px;"></div>

(3)通过 echarts.init 方法初始化一个 echarts 实例并通过 setOption 方法生成一个简单的图

   代码如下:
   <script type="text/javascript">
      // 基于准备好的dom,初始化echarts实例
       var myChart = echarts.init(document.getElementById('main'));
   // 指定图表的配置项和数据
option = {
    title : {
        text: '平面媒体流行语',
        subtext: '2013年15份报纸',
        x:'center'
       },
       ......

(4)最后成图实例

<!DOCTYPE html>
<html>
<head>
    <meta charset="utf-8">
    <title>ECharts</title>
    <!-- 引入 echarts.js -->
    <script src="echarts.min.js"></script>
</head>
<body>
    <!-- 为ECharts准备一个具备大小(宽高)的Dom -->
    <div id="main" style="width: 1000px;height:800px;"></div>
    <script type="text/javascript">
        // 基于准备好的dom,初始化echarts实例
        var myChart = echarts.init(document.getElementById('main'));

        // 指定图表的配置项和数据
option = {
    title : {
        text: '平面媒体流行语',
        subtext: '2013年15份报纸',
        x:'center'
    },
    tooltip : {
        trigger: 'item',
        formatter: "{a} <br/>{b} : {c} ({d}%)"
    },
    legend: {
        type: 'scroll',
        orient: 'vertical',
        right: 10,
        top: 20,
        bottom: 20,
        data: ['中央八项规定', '棱镜门', 'H7N9禽流感', '土豪', '自贸试验区', '单独二胎', '中国大妈', '光盘行动', '女汉子', '十面霾伏', '三中全会', '全面深化改革', '斯诺登', '中国梦', '自贸区', '防空识别区', '曼德拉', '土豪', '雾霾', '嫦娥三号', '党的群众路线教育实践活动', '钓鱼岛', '党内法规', '专题民主生活会', '八项规定', '新型城镇化', '车改', '周边外交', '正“四风”', '老虎苍蝇一起打', '叙利亚问题', '台风“海燕”', '波士顿爆炸案', '撒切尔夫人逝世', '美政府关门', '韩亚空难', '底特律破产', '穆尔西下台', '开城事件', '泰国局势', '民营银行', '遗产税', '互联网金融', '比特币', '钱荒', '中国大妈', '信息消费', '余额宝', '自住型商品房', '存款税', '神十', '4G(第四代移动通信技术)', '3D打印', '无人机', '旅行者1号', '运_20', '天河二号', '可燃冰', '玉兔号', '石墨烯', '太空授课', '汉字听写大会', '高考改革', '最美校长', '通用规范汉字表', '游学团', '积分入学', '减负十条', '慕课', '大学章程', '旅游法', '大黄鸭', '恒大夺冠', '最美乡村', '网络文学', '卡马乔', '孙杨', '园博会', '文明出游', '天山', '哈尼梯田', '珠算申遗', '小时代', '小伙伴', '女汉子', '爸爸去哪儿', '飞机大战', '高端大气上档次', '上头条', '五仁月饼', '网络新成语', '熊孩子', '双十一', 'H7N9禽流感', '转基因', '郑益龙', '光盘行动', '社会抚养会', '广场舞', '二维码', '潮汐车道', '打车软件', '以房养老', '汽车三包', '宽带中国', '常回家看看', '棚户区改造', '“三旧”改造', '定制公交', '清洁空气行动计划', '新消法', '弃婴岛']
    },
    series : [
        {
            name: '姓名',
            type: 'pie',
            radius : '55%',
            center: ['40%', '50%'],
            data: [
                {'name': '中央八项规定', 'value': 0},
{'name': '棱镜门', 'value': 1153},
{'name': 'H7N9禽流感', 'value': 9174},
{'name': '土豪', 'value': 3818},
{'name': '自贸试验区', 'value': 1332},
{'name': '单独二胎', 'value': 826},
{'name': '中国大妈', 'value': 1195},
{'name': '光盘行动', 'value': 909},
{'name': '女汉子', 'value': 1447},
{'name': '十面霾伏', 'value': 109},
{'name': '三中全会', 'value': 14310},
{'name': '全面深化改革', 'value': 11220},
{'name': '斯诺登', 'value': 15422},
{'name': '中国梦', 'value': 36991},
{'name': '自贸区', 'value': 6983},
{'name': '防空识别区', 'value': 3277},
{'name': '曼德拉', 'value': 7943},
{'name': '土豪', 'value': 3818},
{'name': '雾霾', 'value': 19925},
{'name': '嫦娥三号', 'value': 3836},
{'name': '党的群众路线教育实践活动', 'value': 7528},
{'name': '钓鱼岛', 'value': 8611},
{'name': '党内法规', 'value': 4461},
{'name': '专题民主生活会', 'value': 2490},
{'name': '八项规定', 'value': 7999},
{'name': '新型城镇化', 'value': 5119},
{'name': '车改', 'value': 2406},
{'name': '周边外交', 'value': 752},
{'name': '正“四风”', 'value': 379},
{'name': '老虎苍蝇一起打', 'value': 51},
{'name': '叙利亚问题', 'value': 2176},
{'name': '台风“海燕”', 'value': 485},
{'name': '波士顿爆炸案', 'value': 654},
{'name': '撒切尔夫人逝世', 'value': 12},
{'name': '美政府关门', 'value': 14},
{'name': '韩亚空难', 'value': 185},
{'name': '底特律破产', 'value': 162},
{'name': '穆尔西下台', 'value': 262},
{'name': '开城事件', 'value': 0},
{'name': '泰国局势', 'value': 43},
{'name': '民营银行', 'value': 1801},
{'name': '遗产税', 'value': 1790},
{'name': '互联网金融', 'value': 3123},
{'name': '比特币', 'value': 6676},
{'name': '钱荒', 'value': 2274},
{'name': '中国大妈', 'value': 1195},
{'name': '信息消费', 'value': 1502},
{'name': '余额宝', 'value': 2086},
{'name': '自住型商品房', 'value': 944},
{'name': '存款税', 'value': 187},
{'name': '神十', 'value': 1826},
{'name': '4G(第四代移动通信技术)', 'value': 4},
{'name': '3D打印', 'value': 5025},
{'name': '无人机', 'value': 4624},
{'name': '旅行者1号', 'value': 230},
{'name': '运_20', 'value': 0},
{'name': '天河二号', 'value': 394},
{'name': '可燃冰', 'value': 415},
{'name': '玉兔号', 'value': 243},
{'name': '石墨烯', 'value': 556},
{'name': '太空授课', 'value': 978},
{'name': '汉字听写大会', 'value': 539},
{'name': '高考改革', 'value': 1087},
{'name': '最美校长', 'value': 307},
{'name': '通用规范汉字表', 'value': 304},
{'name': '游学团', 'value': 353},
{'name': '积分入学', 'value': 239},
{'name': '减负十条', 'value': 291},
{'name': '慕课', 'value': 418},
{'name': '大学章程', 'value': 183},
{'name': '旅游法', 'value': 4719},
{'name': '大黄鸭', 'value': 2412},
{'name': '恒大夺冠', 'value': 183},
{'name': '最美乡村', 'value': 1099},
{'name': '网络文学', 'value': 1437},
{'name': '卡马乔', 'value': 6639},
{'name': '孙杨', 'value': 11741},
{'name': '园博会', 'value': 2856},
{'name': '文明出游', 'value': 571},
{'name': '天山', 'value': 2666},
{'name': '哈尼梯田', 'value': 362},
{'name': '珠算申遗', 'value': 30},
{'name': '小时代', 'value': 3707},
{'name': '小伙伴', 'value': 5616},
{'name': '女汉子', 'value': 1447},
{'name': '爸爸去哪儿', 'value': 1652},
{'name': '飞机大战', 'value': 83},
{'name': '高端大气上档次', 'value': 552},
{'name': '上头条', 'value': 353},
{'name': '五仁月饼', 'value': 245},
{'name': '网络新成语', 'value': 8},
{'name': '熊孩子', 'value': 564},
{'name': '双十一', 'value': 3214},
{'name': 'H7N9禽流感', 'value': 9174},
{'name': '转基因', 'value': 8469},
{'name': '郑益龙', 'value': 1208},
{'name': '光盘行动', 'value': 909},
{'name': '社会抚养会', 'value': 0},
{'name': '广场舞', 'value': 1913},
{'name': '二维码', 'value': 6685},
{'name': '潮汐车道', 'value': 603},
{'name': '打车软件', 'value': 1147},
{'name': '以房养老', 'value': 1289},
{'name': '汽车三包', 'value': 1616},
{'name': '宽带中国', 'value': 360},
{'name': '常回家看看', 'value': 1460},
{'name': '棚户区改造', 'value': 2323},
{'name': '“三旧”改造', 'value': 159},
{'name': '定制公交', 'value': 977},
{'name': '清洁空气行动计划', 'value': 526},
{'name': '新消法', 'value': 172},
{'name': '弃婴岛', 'value': 362}
                ],
            itemStyle: {
                emphasis: {
                    shadowBlur: 10,
                    shadowOffsetX: 0,
                    shadowColor: 'rgba(0, 0, 0, 0.5)'
                }
            }
        }
    ]
};




        // 使用刚指定的配置项和数据显示图表。
        myChart.setOption(option);
    </script>
</body>
</html>

(5)各种图的绘制

官网上有很多图的实例,使用者可以根据自己的需要找到自己需要的图,点进去,就有每种图的Option,然后按照格式加入数据即可。

四、使用教程B

进入官网,直接在下载页面下载完整版,包括所有的图表和组件,下载是一个插件,只要将自己写的文档保存为.html格式,然后与插件放在同一个文件夹下,打开文档网页后即可显示图表。

(1)官网上有很多实例,进入实例界面,选择右下角的Download 下载该实例(是一个html文件),将其开头的script文件都删掉,换成其中src里是你的echarts文件所在路径。点击该html文件就可以显示图表,把你的数据放入html文件就可以修改图表。

(2)举例(将下面内容复制并保存为.html格式文件,将下载好的echarts.min.js与之放在一个文件夹下,点击运行即可)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
<!DOCTYPE html>
<html style="height: 100%">
<head>
<meta charset="utf-8">
</head>
<body style="height: 100%; margin: 0">
<div id="container2" style="height: 100%"></div>
<script src="./echarts.min.js"></script>
<script type="text/javascript">
var dom = document.getElementById("container2");
var myChart = echarts.init(dom);
var app = {};
option = null;
app.title = '时间轴线图';

option = {
tooltip : {
trigger: 'axis',
axisPointer : { // 坐标轴指示器,坐标轴触发有效
type : 'shadow' // 默认为直线,可选为:'line' | 'shadow'
}
},
legend: {
data:['准确时间', '证词时间']
},
grid: {
left: '3%',
right: '4%',
bottom: '3%',
containLabel: true
},
xAxis : [
{
type : 'value'
}
],
yAxis : [
{
type : 'category',
axisTick : {show: false},
data : ['0点上校和麦奎因下车待了一会\n然后去麦奎因包厢聊天','0:10分文科夫威发车','约0:15公主叫女仆来按摩','0:30列车撞入雪堆','0:37分2号包厢传来叫声','0:45女仆回到包厢','约1:15哈巴特太太称包房有男人','1:45上校结束聊天回到包厢','1:45到2点之间\n穿着鲜红色睡衣的女人撞波洛的门']
}
],
series : [
{
name:'证词时间',
type:'bar',
stack: '总量',
label: {
normal: {
show: true,
formatter: '根据证词得出的时间'
}
},
data:[5, 2, 6, 3, 9, 4, 5, 6, 7]
},
{
name:'准确时间',
type:'bar',
stack: '总量',
label: {
normal: {
show: true,
position: '',
formatter: '侦探可以确定的时间'
}
},
data:[, -3, , -3, -4, , -5, ,-2]
},
]
};
;
if (option && typeof option === "object") {
myChart.setOption(option, true);
}

</script>
</body>

五、相关论文

1.王子毅,张春海.基于ECharts的数据可视化分析组件设计实现[J].微型机与应用,2016,35(14):46-48+51.
2.贾宁.Echarts在移动数据通信中的应用[J].移动通信,2016,40(20):50-53.
3.王龙,王一男.基于ECharts的可视化高校综合信息分析决策系统[J].现代电子技术,2017,40(06):68-70.
4.关于ECharts的介绍 http://echarts.baidu.com/feature.html
5.官网上各种实例的介绍 http://echarts.baidu.com/examples/
6.举例所用的的图表的官网例子 http://echarts.baidu.com/examples/editor.html?c=bar-negative

pyecharts

发表于 2018-03-07

提供者:朱思齐、雷舒婷

pyecharts是什么

pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。
用 Echarts 生成的图可视化效果非常棒,pyecharts 是为了与 Python 进行对接,方便在 Python 中直接使用数据生成图。

ECharts,缩写来自Enterprise Charts,商业级数据图表,一个纯Javascript的图表库, 可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器 (IE6/7/8/9/10/11,chrome,firefox,Safari等),底层依赖轻量级的Canvas类库ZRender, 提供直观,生动,可交互,可高度个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、 值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。

pyecharts 是一个用于生成 Echarts 图表的类库。 使用pyEcharts可以直接将Python代码转化为Echarts的JavaScript代码,简化Echarts和Python项目的集成。 pyecharts可以非常方便地和Flask集成,完全可以使用Flask调用pyecharts动态生成图表同时插入其他html元素,返回给浏览器。

pyecharts的详细文档说明位于:http://pyecharts.org/#/zh-cn
pyecharts的示例网站位于:http://pyecharts.herokuapp.com


pyecharts的安装

pyecharts可以安装在python 2.7或以上的任何计算机上。你可以直接使用pip安装。

  • 使用pip安装:
    1
    pip install pyecharts

pyechats的简单说明

这里简单说明一下各种参数

图形初始化

图表类初始化所接受的参数(所有类型的图表都一样)。

  • title -> str
    主标题文本,支持 \n 换行,默认为 “”
  • subtitle -> str
    副标题文本,支持 \n 换行,默认为 “”
  • width -> int
    画布宽度,默认为 800(px)
  • height -> int
    画布高度,默认为 400(px)
  • title_pos -> str/int
    标题距离左侧距离,默认为’left’,有’auto’, ‘left’, ‘right’, ‘center’可选,也可为百分比或整数
  • title_top -> str/int
    标题距离顶部距离,默认为’top’,有’top’, ‘middle’, ‘bottom’可选,也可为百分比或整数
  • title_color -> str
    主标题文本颜色,默认为 ‘#000’
  • subtitle_color -> str
    副标题文本颜色,默认为 ‘#aaa’
  • title_text_size -> int
    主标题文本字体大小,默认为 18
  • subtitle_text_size -> int
    副标题文本字体大小,默认为 12
  • background_color -> str
    画布背景颜色,默认为 ‘#fff’
  • page_title -> str
    指定生成的 html 文件中 标签的值。默认为’Echarts’
  • jshost-> str
    自定义每个实例的 JavaScript host

通用配置项

通用配置项均在 add() 中设置

  • xyAxis:直角坐标系中的 x、y 轴(Line、Bar、Scatter、EffectScatter、Kline)
  • dataZoom:dataZoom 组件 用于区域缩放,从而能自由关注细节的数据信息,或者概览数据整体,或者去除离群点的影响。(Line、Bar、Scatter、EffectScatter、Kline、Boxplot)
  • legend:图例组件。图例组件展现了不同系列的标记(symbol),颜色和名字。可以通过点击图例控制哪些系列不显示。
  • label:图形上的文本标签,可用于说明图形的一些数据信息,比如值,名称等。
  • lineStyle:带线图形的线的风格选项(Line、Polar、Radar、Graph、Parallel)
  • grid3D:3D笛卡尔坐标系组配置项,适用于 3D 图形。(Bar3D, Line3D, Scatter3D)
  • axis3D:3D 笛卡尔坐标系 X,Y,Z 轴配置项,适用于 3D 图形。(Bar3D, Line3D, Scatter3D)
  • visualMap:是视觉映射组件,用于进行『视觉编码』,也就是将数据映射到视觉元素(视觉通道)
  • markLine&markPoint:图形标记组件,用于标记指定的特殊数据,有标记线和标记点两种。(Bar、Line、Kline)
  • tooltip:提示框组件,用于移动或点击鼠标时弹出数据内容
  • toolbox:右侧实用工具箱

图表的种类

pyecharts可以画的各种图形

  • Bar(柱状图/条形图)
  • Bar3D(3D 柱状图)
  • Boxplot(箱形图)
  • EffectScatter(带有涟漪特效动画的散点图)
  • Funnel(漏斗图)
  • Gauge(仪表盘)
  • Geo(地理坐标系)
  • GeoLines(地理坐标系线图)
  • Graph(关系图)
  • HeatMap(热力图)
  • Kline(K线图)
  • Line(折线/面积图)
  • Line3D(3D 折线图)
  • Liquid(水球图)
  • Map(地图)
  • Parallel(平行坐标系)
  • Pie(饼图)
  • Polar(极坐标系)
  • Radar(雷达图)
  • Sankey(桑基图)
  • Scatter(散点图)
  • Scatter3D(3D 散点图)
  • ThemeRiver(主题河流图)
  • TreeMap(树图)
  • WordCloud(词云图)

用户自定义

  • Grid 类:并行显示多张图
  • Overlap 类:结合不同类型图表叠加画在同张图上
  • Page 类:同一网页按顺序展示多图
  • Timeline 类:提供时间线轮播多张图

pyecharts的简单使用

这里简单的介绍一下如何画图

Bar(柱状图/条形图)

柱状/条形图,通过柱形的高度/条形的宽度来表现数据的大小。
Bar.add() 方法签名

1
2
3
add(name, x_axis, y_axis,
is_stack=False,
bar_category_gap='20%', **kwargs)
  • name -> str
    图例名称
  • x_axis -> list
    x 坐标轴数据
  • y_axis -> list
    y 坐标轴数据
  • is_stack -> bool
    数据堆叠,同个类目轴上系列配置相同的 stack 值可以堆叠放置
  • bar_category_gap -> int/str
    类目轴的柱状距离,当设置为 0 时柱状是紧挨着(直方图类型),默认为 ‘20%’
1
2
3
4
5
6
7
8
9
from pyecharts import Bar

attr = ["衬衫", "羊毛衫", "雪纺衫", "裤子", "高跟鞋", "袜子"]
v1 = [5, 20, 36, 10, 75, 90]
v2 = [10, 25, 8, 60, 20, 80]
bar = Bar("柱状图数据堆叠示例")
bar.add("商家A", attr, v1, is_stack=True)
bar.add("商家B", attr, v2, is_stack=True)
bar.render()

image

Graph(关系图)

用于展现节点以及节点之间的关系数据。
Graph.add() 方法签名

1
2
3
4
5
6
7
8
9
add(name, nodes, links,
categories=None,
is_focusnode=True,
is_roam=True,
is_rotatelabel=False,
layout="force",
graph_edge_length=50,
graph_gravity=0.2,
graph_repulsion=50, **kwargs)
  • name -> str
    图例名称
  • nodes -> dict
    关系图结点,包含的数据项有
    name:结点名称(必须有!)
    x:节点的初始 x 值
    y:节点的初始 y 值
    value:结点数值
    category:结点类目
    symbol:标记图形
    symbolSize:标记图形大小
  • links -> dict
    结点间的关系数据,包含的数据项有
    source:边的源节点名称的字符串,也支持使用数字表示源节点的索引(必须有!)
    target:边的目标节点名称的字符串,也支持使用数字表示源节点的索引(必须有!)
    value:边的数值,可以在力引导布局中用于映射到边的长度
  • categories -> list
    结点分类的类目,结点可以指定分类,也可以不指定。
    如果节点有分类的话可以通过 nodes[i].category 指定每个节点的类目,类目的样式会被应用到节点样式上
  • is_focusnode -> bool
    是否在鼠标移到节点上的时候突出显示节点以及节点的边和邻接节点。默认为 True
  • is_roam -> bool/str
    开启鼠标缩放和平移漫游。默认为 True
    如果只想要开启缩放或者平移,可以设置成’scale’或者’move’。设置成 True 为都开启
  • is_rotatelabel -> bool
    是否旋转标签,默认为 False
  • graph_layout -> str
    关系图布局,默认为 ‘force’
    none:不采用任何布局,使用节点中必须提供的 x, y 作为节点的位置。
    circular:采用环形布局
    force:采用力引导布局
  • graph_edge_length -> int
    力布局下边的两个节点之间的距离,这个距离也会受 repulsion 影响。默认为 50。
    支持设置成数组表达边长的范围,此时不同大小的值会线性映射到不同的长度。值越小则长度越长
  • graph_gravity -> int
    节点受到的向中心的引力因子。该值越大节点越往中心点靠拢。默认为 0.2
  • graph_repulsion -> int
    节点之间的斥力因子。默认为 50。
    支持设置成数组表达斥力的范围,此时不同大小的值会线性映射到不同的斥力。值越大则斥力越大
  • graph_edge_symbol -> str/list
    边两端的标记类型,可以是一个数组分别指定两端,也可以是单个统一指定。默认不显示标记,常见的可以设置为箭头,如下:edgeSymbol: [‘circle’, ‘arrow’]
  • graph_edge_symbolsize -> int/list
    边两端的标记大小,可以是一个数组分别指定两端,也可以是单个统一指定。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
from pyecharts import Graph

nodes = [{"name": "结点1", "symbolSize": 10},
{"name": "结点2", "symbolSize": 20},
{"name": "结点3", "symbolSize": 30},
{"name": "结点4", "symbolSize": 40},
{"name": "结点5", "symbolSize": 50},
{"name": "结点6", "symbolSize": 40},
{"name": "结点7", "symbolSize": 30},
{"name": "结点8", "symbolSize": 20}]
links = []
for i in nodes:
for j in nodes:
links.append({"source": i.get('name'), "target": j.get('name')})
graph = Graph("关系图-力引导布局示例")
graph.add("", nodes, links, repulsion=8000)
graph.render()
(1)确保你的pyechart安装好后,新建一个文件保存为.py格式,用from pyecharts import ... 引入你想要绘制的图表,然后数据放入其中。

(2)举例:如下面的例子Bar3D图,复制下面内容,将其保存为一个py文件,点击运行,会生成一个render.html文件,点击该html文件,即可看到一个简单的Bar3D图。修改其中的数据,重新运行py文件,打开新生成的html文件,就可以看到图表已经修改了。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
from pyecharts import Bar3D

bar3d = Bar3D('''根据证词展示的斯坦布尔-加来车厢示意图
(0点至2点之间的人物位置)
''', width=1200, height=600)
x_axis = [
"餐车", "4/5包厢", "6/7包厢", "8/9包厢", "10/11包厢","1包厢", "2包厢", "3包厢", "12包厢", "13包厢", "14包厢", "15包厢", "16包厢"]
y_axis = [
'1:45到2点之间\n穿着鲜红色睡衣的女人撞波洛的门',
'1:45上校结束聊天回到包厢',
'0:45女仆回到包厢',
'0:37分2号包厢传来叫声',
'约0:15公主叫女仆来按摩',
'0点上校和麦奎因到月台待了一会\n然后去麦奎因包厢聊天',
]

data = [
[-1, 0, 10],
[-1, 1, 1], [-1, 2, 1], [-1, 3, 1], [-1, 4, 1], [-1, 5, 1], [-1, 6, 1],
[-1, 7, 1], [-1, 8, 1], [-1, 9, 1], [-1, 10, 1], [-1, 11, 1], [-1, 12, 1],
[0, 0, 10],
[0, 1, 1], [0, 2, 1], [0, 3, 1], [0, 4, 1], [0, 5, 1], [0, 6, 1],
[0, 7, 1], [0, 8, 1], [0, 9, 1], [0, 10, 1], [0, 11, 1], [0, 12, 1],
[1, 0, 12],
[1, 1, 2], [1, 2, 2], [1, 3, 2], [1, 4, 2], [1, 5, 2], [1, 6, 2],
[1, 7, 2], [1, 8, 2], [1, 9, 2], [1, 10, 2], [1, 11, 2], [1, 12, 2],
[2, 0, 15],
[2, 1, 3], [2, 2, 3], [2, 3, 3], [2, 4, 3], [2, 5, 3], [2, 6, 3],
[2, 7, 3], [2, 8, 3], [2, 9, 3], [2, 10, 3], [2, 11, 3], [2, 12, 3],
[3, 0, 16],
[3, 1, 4], [3, 2, 4], [3, 3, 4], [3, 4, 4], [3, 5, 4], [3, 6, 4],
[3, 7, 4], [3, 8, 4], [3, 9, 4], [3, 10, 4], [3, 11, 4], [3, 12, 4],
[4, 0, 17],
[4, 1, 6], [4, 2, 6], [4, 3, 6], [4, 4, 6], [4, 5, 6], [4, 6, 6],
[4, 7, 6], [4, 8, 6], [4, 9, 6], [4, 10, 6], [4, 11, 6], [4, 12, 6],
[5, 0, 18],
[5, 1, 8], [5, 2, 8], [5, 3, 8], [5, 4, 8], [5, 5, 8], [5, 6, 8],
[5, 7, 8], [5, 8, 8], [5, 9, 8], [5, 10, 8], [5, 11, 8], [5, 12, 8],
[6, 0, 20],
[6, 1, 10], [6, 2, 10], [6, 3, 10], [6, 4, 10], [6, 5, 10], [6, 6, 10],
[6, 7, 10], [6, 8, 10], [6, 9, 10], [6, 10, 10], [6, 11, 10], [6, 12, 10],

]
range_color = ['#313695', '#4575b4', '#74add1', '#abd9e9', '#e0f3f8', '#ffffbf',
'#fee090', '#fdae61', '#f46d43', '#d73027', '#a50026']

bar3d.add("餐车", x_axis, y_axis, [[0, 6, 20] for d in data],
is_visualmap=True, visual_range=[0, 20],
visual_range_color=range_color, grid3d_width=200,
grid3d_depth=80, grid3d_shading='lambert')
bar3d.add("4/5包厢 马斯特曼和安东尼奥·福斯卡雷利 一直在包厢", x_axis, y_axis, [[1, 6, 10] for d in data],
is_visualmap=True, visual_range=[0, 20],
visual_range_color=range_color, grid3d_width=200,
grid3d_depth=80, grid3d_shading='lambert')
bar3d.add("6/7包厢 赫克托·麦奎因和上校到月台", x_axis, y_axis, [[2, 6, 10] for d in data],
is_visualmap=True, visual_range=[0, 20],
visual_range_color=range_color, grid3d_width=200,
grid3d_depth=80, grid3d_shading='lambert')
bar3d.add("8/9包厢 希尔德加德·施密特", x_axis, y_axis, [[3, 6, 10] for d in data],
is_visualmap=True, visual_range=[0, 20],
visual_range_color=range_color, grid3d_width=200,
grid3d_depth=80, grid3d_shading='lambert')
bar3d.add("10/11包厢 格丽塔·奥尔松和玛丽·德贝纳姆 一直在包厢", x_axis, y_axis, [[4, 6, 10] for d in data],
is_visualmap=True, visual_range=[0, 20],
visual_range_color=range_color, grid3d_width=200,
grid3d_depth=80, grid3d_shading='lambert')
bar3d.add("1包厢 赫尔克里·波洛 一直在包厢", x_axis, y_axis, [[5, 6, 10] for d in data],
is_visualmap=True, visual_range=[0, 20],
visual_range_color=range_color, grid3d_width=200,
grid3d_depth=80, grid3d_shading='lambert')
bar3d.add("2包厢 死者雷切特", x_axis, y_axis, [[6, 6, 10] for d in data],
is_visualmap=True, visual_range=[0, 20],
visual_range_color=range_color, grid3d_width=200,
grid3d_depth=80, grid3d_shading='lambert')
bar3d.add("3包厢 哈巴特太太 一直在包厢", x_axis, y_axis, [[7, 6, 10] for d in data],
is_visualmap=True, visual_range=[0, 20],
visual_range_color=range_color, grid3d_width=200,
grid3d_depth=80, grid3d_shading='lambert')
bar3d.add("12包厢 安德雷尼伯爵夫人 一直在包厢", x_axis, y_axis, [[8, 6, 10] for d in data],
is_visualmap=True, visual_range=[0, 20],
visual_range_color=range_color, grid3d_width=200,
grid3d_depth=80, grid3d_shading='lambert')
bar3d.add("13包厢 安德雷尼伯爵 一直在包厢", x_axis, y_axis, [[9, 6, 10] for d in data],
is_visualmap=True, visual_range=[0, 20],
visual_range_color=range_color, grid3d_width=200,
grid3d_depth=80, grid3d_shading='lambert')
bar3d.add("14包厢 德拉戈米罗夫公主 一直在包厢", x_axis, y_axis, [[10, 6, 10] for d in data],
is_visualmap=True, visual_range=[0, 20],
visual_range_color=range_color, grid3d_width=200,
grid3d_depth=80, grid3d_shading='lambert')
bar3d.add("15包厢 赫克托·麦奎因和上校到月台", x_axis, y_axis, [[11, 6, 10] for d in data],
is_visualmap=True, visual_range=[0, 20],
visual_range_color=range_color, grid3d_width=200,
grid3d_depth=80, grid3d_shading='lambert')
bar3d.add("16包厢 哈德曼先生 一直在包厢", x_axis, y_axis, [[12, 6, 10] for d in data],
is_visualmap=True, visual_range=[0, 20],
visual_range_color=range_color, grid3d_width=200,
grid3d_depth=80, grid3d_shading='lambert')


bar3d.render()

image

剩下的图如何画就不一一展示了,可以自行阅读说明文档画图。

相关文档

  • 安装及一些简单实例的介绍 https://www.jianshu.com/p/b718c307a61c
  • 各种实例的介绍 https://github.com/pyecharts/pyecharts/blob/master/docs/zh-cn/charts.md

BCC语料库

发表于 2018-03-07

提供者:肖丹、马路遥

一、资源名称

  • BCC语料库

二、链接

  • BCC语料库

三、简介

北京语言大学语料库中心(BLCU Corpus Center,简称BCC)是以汉语为主、兼有英语和法语的在线语料库,是服务语言本体研究和语言应用研究的在线大数据系统。BCC语料库总字数约 150 亿字,包括报刊(20 亿)、文学(30 亿)、微博(30 亿)、科技(30 亿)、综合(10 亿)和古汉语(20 亿)等多领域语料,是可以全面反映当今社会语言生活的大规模语料库。BCC语料库具有数据量大、领域广和检索便捷等优点。目前,已经支持了百余篇论文的发表。

  • 以汉语为主,兼有其他语种的语言大数据;
  • 为语言本体研究提供在线检索系统;
  • 为语言本体研究提供建构大数据的语言应用平台;
  • 支持云服务;
  • 通过API调用方式为开展知识抽取、模型构建提供便利。

四、教程

(1)在线检索

  1. 统计
    BCC检索式中可以包含词性或短语类型,也可以带通配符。
    enter description here

  2. 筛选
    提供二次检索的功能,即在现有的返回结果中保留或者剔除符合检索式的语料实例,得到二次结果。

  3. 下载
    下载检索或统计结果

  4. 高级
    可以设置返回结果的显示形式;可以随机生成实例,如设定上下文显示字数,设定是否以句形式显示结果。
    enter description here

  5. 全文
    点击该按钮可以查看检索实例更多的上下文。
    enter description here

(2)BCC检索式

  1. 汉字串(或者词串)
    enter description here

  2. 属性符号
    enter description here

  3. 通配符“.”、“@”、“~”
    enter description here

  4. 集合符号“[]”
    enter description here

  5. 离合符号“*”

  6. 属性约束符号“/”
    enter description here

  7. 空格或者“+”

(3)检索功能

  • 检索式
    用户可以在搜索栏中输入检索式,点击“搜索”,进行查询。BCC检索式由字、词和语法标记等单元组成,并且支持通配符和离合查询。

    词性符号 :输入词性符号,可按照词性符号进行检索。BCC中汉语语料库采用北京大学的词性体系,英语语料库采用美国宾州大学的词性体系。
    空格 :隔开2个词性符号
    . :表示一个字符
    ~ :表示一个词
    * :用于检索离合的语言片段,例,洗*澡,符合检索式的实例可为“洗一个痛快澡”、“洗一个舒服澡”等。
    / :限制/前的连续串是具有某种词性的词,例,../v ,表示双音节动词。

  • 检索设置
    点击“多领域”,检索结果将包含报刊、微博等全部领域的检索结果。用户也可以选择在某一领域中检索。选择“自定义”,可以进一步细化某一领域的检索范围,例如,检索范围可细化到文学领域下的《红楼梦》(仅限平台提供的语料)。

  • 历时检索
    在搜索栏输入字符串,可返回该字符串在历年语料中的频次。结果以图表形式呈现,用户可下载。

  • 检索结果处理
    每条检索结果包含符合检索式的实例以及上下文信息,用户可以再次基础上进行统计并下载相关结果。

    • 统计
      选择“统计”,可对语料中检索式描述的实例进行统计,用户可以下载统计结果。
    • 筛选
      选择“筛选”,在弹出窗口中输入某一字符串,选择“保留”或者“排除”,可以返回保留或者排除初次检索结果中含有该字符串的检索结果。
    • 下载
      选择“下载”,用户可以下载1000条检索结果。
    • 高级
      选择“高级”,用户可以设置上下文字数、显示顺序等。

(4)对比功能

进入“对比”功能,选择“单一来源”,可返回2个检索式在某一领域中的查询结果,结果以词云形式呈现。检索领域可以由用户自定义。
选择“两个来源”,可返回1个检索式在2个不同领域中的检索结果,结果以词云形式呈现。

五、相关论文

(1)荀恩东 饶高奇 肖晓悦 臧娇娇. 大数据背景下BCC语料库的研制[J].语料库语言学,2016.

Laravel和Scrapy

发表于 2018-03-07

提供者:任宏凯

一.工具

代码实战可参考:云盘链接:https://pan.baidu.com/s/1o9dhrGA 密码:xyt2

1.1 Scrapy框架

Scrapy架构图

①Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。

②Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。

③Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理。

④Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器)。

⑤Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行后期处理(详细分析、过滤、存储等)的地方。

⑥Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。

⑦Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses和从Spider出去的Requests)。

1.2 Laravel框架

1.2.1框架简介

框架是一堆代码的集合,这些代码里边有变量、常量、方法、函数、类。也有设计模式,例如:MVC、单例、AR、工厂等。框架最大的特点是使得程序的业务逻辑与数据模型分开。

1.2.2框架分类

a.重量级:功能多、OOP面向对象、维护性好、生命力非常顽强。

ZendFramework:zend公司官方框架,重量级的,功能非常丰富

Yii:重量级,OOP面向对象,功能丰富,外国人使用最多的框架

Cakephp:功能非常丰富,单速度慢

Symphony:国外重量级框架,功能丰富

b.轻量级:功能实用,面向过程和面向对象混合

Codeigniter:轻量级框架,开发速度快

ThinkPHP:国人开发的一个轻量级框架,注释都是中文的,国人使用非常广泛

Laravel:介于轻量级和重量级之间

####### FIG.2 statistics on the popularity of each framework

Vue.js

渐进式JavaScript框架,易用、灵活、高效。最大的三个特点:双向数据绑定、MVVM、虚拟DOM。

图3 MVVM模式

Element-UI

图4 Element网站快速成型工具

特点:

a.一致性 Consistency

与现实生活一致:与现实生活的流程、逻辑保持一致,遵循用户习惯的语言和概念;在界面中一致:所有的元素和结构需保持一致,比如:设计样式、图标和文本、元素的位置等。

b.反馈 Feedback

控制反馈:通过界面样式和交互动效让用户可以清晰的感知自己的操作;
页面反馈:操作后,通过页面元素的变化清晰地展现当前状态。

c.效率 Efficiency

简化流程:设计简洁直观的操作流程;
清晰明确:语言表达清晰且表意明确,让用户快速理解进而作出决策;
帮助用户识别:界面简单直白,让用户快速识别而非回忆,减少用户记忆负担。

d.可控 Controllability

用户决策:根据场景可给予用户操作建议或安全提示,但不能代替用户进行决策;
结果可控:用户可以自由的进行操作,包括撤销、回退和终止当前操作等。

ROCStory

发表于 2018-03-07

提供者:刘璐
这个语料库是我现在学习和工作中接触的最多的一个,所以在本次大作业中拿出来分享一些我对于这个语料库的理解,以及我在工作中做的一些笔记和一些我看过的相关的论文。

==download web:==

http://cs.rochester.edu/nlp/rocstories/

==paper for this dataset and evaluation==

https://arxiv.org/pdf/1604.01696.pdf

==introduction==

  • background

    • Representation and learning of commonsense knowledge is one of the foundational problems in the quest to enable deep language understanding;

    • Story understanding is an extremely challenging task in natural language understanding with a longrunning history in AI ;

    • This issue is particularly challenging for understanding causal and correlational relationships between events(事件之间的因果和相关关系);

    • Recently, there has been a renewed interest in story and narrative understanding based on progress made in core NLP tasks.

    • research has been hindered(阻碍) by the lack of a proper evaluation framework.

  • main goals:

    • The corpus contains a variety of commonsense causal and temporal relations between everyday events. 该语料库注重常识关系和因果关系的构建
    • The corpus is a high quality collection of nonfictional daily short life stories.该语料库只包含真实事件(这种真实指的是不含虚构内容,比如说一只小狗踢足球等等)
  • example of this corpus:

    | storyid | storytitle | sentence1 | sentence2 | sentence3 | sentence4 | sentence5 |
    | :——– | ——–:| :–: |:–: |:–: |:–: |:–: |
    |9a51198e-96f1-42c3-b09d-a3e1e067d803 | Overweight Kid |Dan’s parents were overweight .| Dan was overweight as well .| The doctors told his parents it was unhealthy .| His parents understood and decided to make a change . |They got themselves and Dan on a diet .|
    617e7ada-3878-488d-bd56-40695b91f053| The Bike Accident| Carrie had just learned how to ride a bike . |She didn’t have a bike of her own .| Carrie would sneak rides on her sister’s bike . |She got nervous on a hill and crashed into a wall .| The bike frame bent and Carrie got a deep gash on her leg .|
    79b0da1f-e460-4173-ba58-8c9e2553c53a| Beach| Morgan enjoyed long walks on the beach .| She and her boyfriend decided to go for a long walk .| After walking for over a mile , something happened .| Morgan decided to propose to her boyfriend .| Her boyfriend was upset he didn’t propose to her first .|
    d173b7de-4611-4cdf-934c-912834755e41 |The bad customer .|Jane was working at a diner .| Suddenly , a customer barged up to the counter . |He began yelling about how long his food was taking .| Jane didn’t know how to react .| Luckily , her coworker intervened and calmed the man down .|


==the evaluation framework for this corpus==

  • This system is given a four-sentence ‘context’ and two alternative endings to the story, called ‘right ending’ and ‘wrong ending’.
  • Hence, in this test the fifth sentence is blank. Then the system’s task is to choose the right ending.
  • 简单来说:这个评测就是给出一个故事的plot(前四句话),让你的模型在训练之后在两个ending(只有一个正确)中选择正确的结局。算是一个二分类问题。
  • examples:
    image
  • 这个评测现在有很多人在做,后面我会附上一些现有的成果paper。

==our work for this corpus:==

  • 我们做的是一个故事生成的任务,旨在根据故事的plot(前4句话),生成故事的结局(ending,最后一句)
  • 现在主要用到的方法:
    • seq2seq+attn
    • RL
    • external knowledge(还在尝试)

==references==

for this corpus:

  • A Corpus and Cloze Evaluation for Deeper Understanding of Commonsense Stories

for the evaluation works:

  1. An RNN-based Binary Classifier for the Story Cloze Test.
  2. Story Cloze Evaluator: Vector Space Representation Evaluation by Predicting What Happens Next
  3. Reasoning with Heterogeneous Knowledge for Commonsense Machine Comprehension
  4. Story Comprehension for Predicting What Happens Next

NLTK

发表于 2018-03-07

提供者:韦林煊

NLTK是Python很强大的第三方库,可以很方便的完成很多自然语言处理(NLP)的任务,包括分词、词性标注、
命名实体识别(NER)及句法分析等等。也是很多书籍的御用库,比如:《用Python进行自然语言处理(中文)》。

NLTK的官网:http://www.nltk.org/
NLTK的官方指导书籍:http://www.nltk.org/book/
NLTK的github主页位于:https://github.com/nltk/nltk

NLTK库安装
pip install nltk

相关的入门安装教程(包括语料库下载)
http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html

如:需要下载一些数据文件:
import nltk
nltk.download()
也可到http://nltk.org/nltk_data/手动下载,然后放到根目录下。
(python安装根目录)

一、NLTK加载语料库

针对一批语料,nltk提供了一些处理函数。对自己收集的文本文件, 并且想使用nltk提供的方法访问它们, 
可以在NLTK中的PlaintextCorpusReader帮助下载入它们。
1
2
3
>>>rom nltk.corpus import PlaintextCorpusReader
>>>corpus_root = '/usr/share/dict'
>>>wordlists = PlaintextCorpusReader(corpus_root, '.*')

其中corpus_root是自己文本文件的目录。nltk的分词是针对英语的,可以自己处理好分词后,再将语料交给nltk来处理。

加载好了语料,究竟能作什么样的处理呢?nltk提供的基本语料库处理函数如下:
fileids():语料库中的文件
fileids([categories]):这些分类对应的语料库中的文件
categories()语料库中的分类
categories([fileids]):这些文件对应的语料库中的分类
raw()语料库的原始内容
raw(fileids=[f1,f2,f3]):指定文件的原始内容
raw(categories=[c1,c2]):指定分类的原始内容
words():整个语料库中的词汇
words(fileids=[f1,f2,f3]):指定文件中的词汇
words(categories=[c1,c2]):指定分类中的词汇
sents():指定分类中的句子
sents(fileids=[f1,f2,f3]):指定文件中的句子
sents(categories=[c1,c2]):指定分类中的句子
abspath(fileid):指定文件在磁盘上的位置
encoding(fileid):文件的编码(如果知道的话)
open(fileid):打开指定语料库文件的文件流
root():到本地安装的语料库根目录的路径
这些是基本的函数,更多的功能还要结合其他模块使用。同时,nltk提供了很多的语料库:古腾堡语料库,网络和聊天文本,布朗语料库等。在教程中,利用这些语料库可以尝试nltk提供的其他功能。

二、NLTK进行分词

用到的函数:
nltk.sent_tokenize(text):对文本按照句子进行分割
nltk.word_tokenize(sent):对句子进行分词

三、NLTK进行词性标注

用到的函数:
nltk.pos_tag(tokens):tokens是句子分词后的结果,同样是句子级的标注

四、NLTK进行命名实体识别(NER)

用到的函数:
nltk.ne_chunk(tags): tags是句子词性标注后的结果,同样是句子级

上例中,有两个命名实体,一个是Xi,这个应该是PER,被错误识别为GPE了; 另一个事China,被正确识别为GPE。

五、句法分析

nltk没有好的parser,推荐使用Stanford parser。
但是nltk有很好的树类,该类用list实现
可以利用Stanford parser的输出构建一棵python的句法树

六、概率统计

如果以上功能还没发满足您的需求,那么,可以尝试使用概率统计功能来进行更为灵活的底层实现您想要的功能。本功能主要使用FreqDist类。
注:下文斜体表示运行结果
初始化实例:fdist1=FreqDist(['abc','cd','cd']);

(“FreqDist({‘a’: 5, ‘ ‘: 5, ‘e’: 5, ‘s’: 3, ‘n’: 3, ‘i’: 2, ‘p’: 1, ‘T’: 1,’x’: 1, ‘c’: 1, …})”)

fdist1=FreqDist('This is an example sentenceaaa')

("FreqDist({'cd':2, 'abc': 1})")

计算特定样本次数:fdist1['cd']

2

计算特定样本频率:fdist1.freq('cd')

0.6666666666666666

样本总数:fdist1.N()

3
`fdist1.B()`
2

遍历样本:for sample in fdist1: print(sample)

abc
 ab

数值最大的样本:fdist1.max()

'cd'

绘制频率分布表:fdist1.tabulate()
绘制频率分布图:fdist1.plot()

Sympy

发表于 2018-03-07

提供者:李华勇
SymPy–一个简洁易用的Python代数计算系统

相比于广为人知的用于数值计算的Python库:Numpy,SymPy似乎有点默默无闻。本文旨在介绍Sympy这个强大的Python代数计算库,恰当使用Sympy能够极大简化代数计算的过程,降低开发计算的成本。

Sympy是什么?

Sympy logo

SymPy是一个用来处理数学符号的Python库,旨在成为一个多功能但代码尽可能简洁以便于理解和扩展的计算机代数系统(CAS)。同时,SymPy完全是用Python编写的,并且不依赖任何外部的库。

Sympy的详细文档位于:http://docs.sympy.org/latest/index.html (需要翻墙)

Sympy的github主页位于:https://github.com/sympy/sympy

SymPy 这种符号运算系统的真正威力是,它能够做所有类型的符号运算。SymPy 能够计算导数、积分、求极限、解方程、矩阵运算等等。所有这些,都是基于符号的。它还包括了绘图(绘制函数的输出)、自动生成LaTex 代码、物理、统计、数论、几何、逻辑等模块。

大家可能还是不太明白,我稍微解释一下,单纯用语言内置的运算与变量解决的是,由值求结果。如:

1
2
#仅用于说明,不要直接运行
print(x + y)

上式中的x与y在这条语句执行前你肯定得赋值的,否则就会出错。

而符号计算不同,你可以在之前将其设为符号。

1
2
3
4
#仅用于说明,不要直接运行
x = Symbol('x')
y = Symbol('y')
print(x + y)

上述代码是可以的。因为Sympy库将x与y转换成了符号(概念上)。

给我一个使用Sympy的理由 (`へ´*)ノ

有许多现存的计算机代数系统(CAS),这里维基百科列出了其中的许多。在这些CAS中,SymPy 有哪些优势呢?

首先 SymPy 是完全免费的。它是开源的,并且遵守 BSD 许可。如果你想的话,你可以修改源代码之后拿出去卖。相比流行的商业系统,要花费高额资金购买授权。

第二, SymPy 使用 Python 语言。学多 CAS 发明了他们自己的语言。而 SymPy 没有,它完全采用 Python 编写,完全在 Python 中运行。这就意味着,如果你已经学会 Python ,也就会很容易地使用 SymPy ,因为你已经学会了语法。(如果你并不会 Python ,它也很容易学)。除此之外,我们已经知道,Python 是一个设计优良的编程语言。 SymPy 的开发者对他们开发数学软件的能力很自信,但是发明一门全新语言就是另外一回事情了。通过重用现有语言,我们将精力集中在了主要问题——数学上。

另外一个 CAS ,Sage 也使用 Python 作为它的语言。但是 Sage 很庞大,要下载超过 1GB 的数据。 SymPy 的一大优势就是它很轻量。除了体积小之外,他只依赖 Python ,所以容易地在任何地方运行。此外,Sage 和 SymPy 的目标不同。Sage 的目标是一个全功能的数学系统,通过将所有主要的开源数学系统编译组合成为一个。当你在 Sage 中调用一个函数,例如积分,它将调用其所包含的开源包中的一个。实际上, SymPy 也被包含在 Sage 之中。 SymPy 的目标是成为一个独立的系统,所有特性都是 SymPy 自己实现的。

SymPy 的最后一个重要特性是,它可以被当作库来使用。许多 CAS 致力于在交互环境下使用,但是若你打算将运算自动化,或者是扩展,他们将很难实现。而使用 SymPy ,你可以轻松地使用两种环境:交互式 Python 环境或作为库导入到你自己 Python 程序中。 SymPy 也提供了 API 给你,用来扩展你自己自定义的函数。

安装Sympy

sympy 可以安装在python 2.7或以上的任何计算机上。sympy需要首先安装mpmath python库。你可以选择使用anaconda安装或者直接使用pip安装。

  • 使用anaconda安装:

    1
    conda update sympy
  • 使用pip直接安装:

    1
    pip install -U sympy
  • 或者你也可以选择使用git安装(这是最麻烦的方式,不过还是有人喜欢这么来┓( ´∀` )┏)

    1
    2
    3
    git clone git://github.com/sympy/sympy.git
    git pull origin master
    setupegg.py develop

sympy 功能举例

sympy支持的非常多的运算,这里不可能全部展开写,详细的功能介绍请参考官方网站的文档。这里我们选取几个功能简单介绍下:

符号计算

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
from sympy import Symbol
x = Symbol('x')
y = Symbol('y')

from sympy import symbols, var
a, b, c = symbols('a,b,c')
d, e, f = symbols('d:f')
var('g:h') #(g, h)
var('g:2') #(g0, g1)

x + y + x - y #2*x
(x + y)**2 #(x + y)**2
((x + y)**2).expand() #x**2 + 2*x*y + y**2

#使用函数 subs(old, new) 可以将给定的符号代换成其它的数字,符号或者表达式
((x + y)**2).subs(x, 1) #(y + 1)**2
((x + y)**2).subs(x, y) #4*y**2

求极限

在SymPy中使用极限很简单,使用函数 limit(function, variable, point) ,所以为了计算当x趋于0时的极限只需要输入limit(f,x,0),如下:

1
2
3
4
5
6
7
from sympy import limit, Symbol, sin, oo
x = Symbol("x")
limit(sin(x)/x, x, 0) # 1

limit(x, x, oo) #oo
limit(1/x, x, oo) #0
limit(x**x, x, 0) #1

求导数

你可以对任何SymPy的表达式进行求导,使用函数 diff(func, var), 高阶导数使用diff(func, var, n) :

1
2
3
4
5
6
7
8
9
from sympy import diff, Symbol, sin, tan
x = Symbol('x')

diff(sin(x), x) # cos(x)
diff(sin(2*x), x) #2*cos(2*x)

diff(sin(2*x), x, 1) # 2*cos(2*x)
diff(sin(2*x), x, 2) # -4*sin(2*x)
diff(sin(2*x), x, 3) # -8*cos(2*x)

求积分

SymPy支持初等超越函数和特使函数的不定积分和定积分,通过使用函数 integrate() ,这个函数用到了强大的扩展Risch-Norman算法、一些启发式算法和模式匹配 ,例如:

1
2
3
4
5
6
7
8
9
10
11
from sympy import integrate, erf, exp, sin, log, oo, pi, sinh, symbols
x, y = symbols('x,y')

#初等函数积分
integrate(6*x**5, x) # x**6
integrate(sin(x), x) # -cos(x)
integrate(log(x), x) # x*log(x) - x

#定积分
integrate(x**3, (x, -1, 1)) # 0
integrate(sin(x), (x, 0, pi/2)) # 1

求微分方程

1
2
3
4
5
6
7
8
9
10
11
12
>>> from sympy import Function, Symbol, dsolve
>>> f = Function('f')
>>> x = Symbol('x')
>>> f(x).diff(x, x) + f(x)
2
d
f(x) + ---(f(x))
2
dx

>>> dsolve(f(x).diff(x, x) + f(x), f(x))
f(x) = C1*sin(x) + C2*cos(x)

模式匹配

使用.match()模式和Wild 类,可以对表达式执行模式匹配,返回结果就是所需要的各个匹配值,以字典的形式呈现,就像:

1
2
3
4
5
6
7
8
9
>>> from sympy import Symbol, Wild
>>> x = Symbol('x')
>>> p = Wild('p')
>>> (5*x**2).match(p*x**2)
{p: 5}

>>> q = Wild('q')
>>> (x**2).match(p*x**q)
{p: 1, q: 2}

如果匹配不成功,则返回None:

1
2
>>> print((x + 1).match(p**x))
None

还可以在 Wild 类中添加排除参数,使得这些被排除的参数不会出现在结果当中:

1
2
3
4
5
6
7
>>> p = Wild('p', exclude=[1, x])
>>> print((x + 1).match(x + p)) # 1 is excluded
None
>>> print((x + 1).match(p + 1)) # x is excluded
None
>>> print((x + 1).match(x + 2 + p)) # -1 is not excluded
{p_: -1}

THULAC

发表于 2018-03-07

提供者:刘晓

一、下载地址:http://thulac.thunlp.org/

二、简介

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC集成了目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字),模型标注能力强大。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%。同时进行分词和词性标注时每秒可处理约15万字,速度较快。

三、使用教程

1、编译和安装(基于python版本,兼容2.x和3.x)

1.1 源代码下载
将thulac文件放到目录下,通过import thulac来引用,thulac需要模型的支持,需要将下载的模型放到thulac目录下。
1.2 pip下载
进入powershell命令行模式,输入pip install thulac,然后回车,通过import thulac来引用。

2、使用方式

2.1 分词和词性标注程序
2.1.1 命令格式(Python 3.x版)
通过python程序导入 thulac包,新建thulac.thulac(args)类,其中args为程序的参数。之后可以通过调用thilac.cut()进行单句分词。注意:thulac只支持GBK和ASII格式文档。代码示例1:

>>> import thulac  
>>> thu1 = thulac.thulac()  
Model loaded succeed  
>>> text = thu1.cut("浓眉哥左膝受伤离场新赛季魔咒继续", text =True)  
>>> print(text)
浓_a 眉哥_n 左膝_n 受伤_v 离_v 场_n 新_a 赛季_n 魔_g 咒_n 继续_v
>>>_

代码示例2:

>>> thu1 = thulac.thulac(seg_only = True)  
Model loaded succeed  
>>> thu1.cut_f("E:\\input.txt","E:\\output.txt")  
successfully cut file E:\\input.txt!
>>>

2.1.2 python版本接口参数

  • thulac(user_dict=None,model_path=None,T2S=False, seg+only=False)初始化程序,进行自定义设置。其中:
  • user_dict:设置用户字典,用户字典中的次会被打上uw标签。词典中每一个词一行,UTF-8编码。
  • T2S:默认False,是否将句子从繁体转化为简体
  • Seg_only:默认False,是否只进行分词,不进行词性标注
  • Filt:默认False,是否使用过滤器去除一些没有意义的词语,例如“可以”。
  • model_path:设置模型文件所在文件夹,默认为models/
  • cut(文本,text=False):对一句话进行分词
    • text:默认为False,是否返回文本,不返回文本则返回一个二维数组([[word,tag]…]),tag_only模式下tag为空字符。
  • cut_f:(输入文件,输出文件)对文件进行分词
  • run():命令行交互式分词(屏幕输入、屏幕输出),如图:
  • thu1 = thulac.thulac()
    Model loaded succeed
    thu1.run()
    工信处女干事每月经过下属科室查看口接口器等技术性器件
    工信处_n 女_a 干事_n 每月_r 经过_p 下属_v 科室_n 查看_v 24_m 口_q 接口器_n 等_u 技术性_n 器件_n

2.1.3 分词和词性标注模型的使用

THULAC需要分词和词性标注模型的支持,用户可以下载THULAC模型Models_v1.zip,并放到THULAC的根目录下即可,或者使用参数——model_dir dir指定模型的位置。

2.词性标记集

2.2.1 通用标记集:

n/名词 np/人名 ns/地名 ni/机构名 nz/其它专名m/数词 q/量词
mq/数量词 t/时间词 f/方位词 s/处所词v/动词 a/形容词 d/副词
h/前接成分 k/后接成分 i/习语 j/简称 r/代词 c/连词 p/介词
u/助词 y/语气助词 e/叹词 o/拟声词 g/语素 w/标点 x/其它

2.2.2 特殊标记集(适用于lite_v1_2版)

需要下载使用:
vm/能愿动词 vd/趋向动词

四、相关论文

Zhongguo Li, Maosong Sun. Punctuation as Implicit Annotations for Chinese Word Segmentation. Computational Linguistics, vol. 35, no. 4, pp. 505-512, 2009.

六大方言地方普通话语音语料库

发表于 2018-03-07

提供者:匡燕芳

资源介绍:

  在国家863高技术项目支持下完成的地方普通话语音语料库。

  第一批数据库(上海、广州、重庆和厦门)以朗读语体为主,考虑了语音的音段平衡。

  此次第二批(长沙、洛阳、南京、南昌、太原、温州)则在收集地方普通话语音语料库时,突出了口语化的特点,加大了语料覆盖范围。

  建库目的是为语音识别系统提供训练库和测试库,为语音研究提供朗读和口语风格,覆盖尽可能多地语音、词汇的语音库。

  详见网站http://www.chineseldc.org/

语料设计:

  口语为主。尽量覆盖语音现象,包括音段搭配和超音段的组合。

  每个方言点的发音人为200人(男女各半),共1200人,没有发音障碍,听力正常。

  年龄、性别以及口音和文化程度事先设计,口音按照普通话水平测试标准分级,最终由专家抽样检查。

  原始语料来自于小说、课本、电影剧本、聊天访谈。面向信息和通讯应用的语句包括数字,字符和手机短信内容等。

  语音平衡的句子,选自访谈对话、口语对话以及人民日报等语料,句长小于35个音节,尽量覆盖所有的音节间的三音子音联。

  整个挑选的句子有1895个,覆盖几乎所有音节、音节间两音子和大部分三音子组合。同时兼顾2-3音节词的声调搭配。

  每个方言点包含20套语料,每套录音语料包括口语和朗读两种体裁如下:
































每个发音人语料的组成 发音方式 内容说明
(CS/LY/NC/NJ/TY/WZ)+(F/M)xxx 自然独白口语 发音人自由挑选一个话题口述:3-5分钟
a0001-a0015 自然口语 回答23个问题
qxxxx 朗读 常用口语句子 每人23个
xxxxx 朗读 数字,字母,短信等5句
sxxxx 朗读 语音平衡的句子 95句左右
标注规范:

  标注软件使用Praat语音分析软件,标注文件名对应声音文件号 + “.TextGrid”后缀。

  标注内容如下:

  1.对所有发音人的口语独白进行了语音到文字的转写,包括口语中出现的副语言学和非语言学信息的转写。

  2.所有朗读、常用方言词汇和回答问题的汉字的转写。数字用汉字标注,如“五十二”;英文网址用英语表示,如chinaren点com;

字母单读时,字母之间用空格隔开。

  3.对所有朗读、常用方言词汇和回答问题进行了正则拼音的转写,并且标注分词信息。

使用Praat软件对库中某wav文件进行标注后的结果:

![avatar]()

![avatar]()

技术缺陷:

  即使是专业的国际语音标注软件Praat,在处理方言口语语料库时同样存在着技术瓶颈。

  1、首先是国际音标的处理比较复杂。我们采用潘悟云IpaPanNew字体和云龙国际音标两个版本的辑录方式,

当从Word文档转入到Access、Excel或其他类型的文档里时,会出现一些音标无法显示的问题。在检索、排序方面也遇到了障碍。

  2、方言中会有一些电脑字库中找不到的生僻字或方言字,即“有音无字”。

为了保证资料的准确性和全面性,在庞大的语料处理中要对这些生僻字做统一编号后的造字处理。

  相信在广大科研人员的努力下,我们能最终建立一个内容丰富、材料准确、查找便捷、方便实用的汉语方言俗语语料库,

为汉语方言的迸一步深入研究,为国家语言文字工作的健康发展和各类工具书的编纂提供全面可靠的数据;

同时对一些相关的问题进行探讨,为语汇学这门新学科的发展,贡献我们的微薄之力。

参考文献:

  书名: 《元认知和话语的链接结构》

  作者: 李明洁著

1…19202122

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4