世界语言资源平台

  • 首页
  • 标签
  • 归档

NTUSD中文极性情感词典

发表于 2018-06-03

提供者:杜成玉
下载地址:https://download.csdn.net/download/huixion/9470816

概述

中文极性情感词典NTUSD来源于台湾大学自然语言实验室,词典包含两个子文件,分别是negative和positive子文件。其情感倾向主要分为正面和负面两大类。目前主要是应用于网络意见挖掘,领域相关情感极性分析和文件情感分类。

相关论文

[1]陆峰.基于word2vec扩充情感词典的商品评论倾向分析[J].电脑知识与技术,2017,13(05):143-145+159.
[2]於伟. 中文微博情感词典的构建研究与应用[D].上海师范大学,2017.
[3]郭顺利,张向先.面向中文图书评论的情感词典构建方法研究[J].现代图书情报技术,2016(02):67-74.
[4]王科,夏睿.情感词典自动构建方法综述[J].自动化学报,2016,42(04):495-511.
[5]王格. 网络评论的情感倾向分析[D].武汉工程大学,2015.
[6]肖琴. 基于主观倾向性分析的微博群体信息采集研究[D].华中师范大学,2013.

汉籍电子文献

发表于 2018-06-03

提供者:朱述承
访问地址:http://hanji.sinica.edu.tw/

概述

  中央研究院汉籍电子文献(旧称汉籍全文资料库)是迄今最具规模的中文古籍资料库之一,也可能是在此规模下,资料整理最严谨的中文全文资料库。它包含整部二十五史、整部阮刻十三经、超过两千万字的台湾史料、一千万字的大正藏以及其他典籍,合计字数一亿三千四百万字,并以每年至少一千万字的速率,持续成长。它的背后则是本院各文史研究所的学术热情;不计人力、财力侷促,接踵投入的勇气与坚持不止的毅力。我们不仅期望汉籍电子文献经得起学术专业的严厉挑剔,成为相关研究不可或缺的利器,更期盼莘莘学子、网路玩家以至过客,也能驻足于此,或游或观,乃至在古典馀辉中觅得身心的安顿。
  汉籍电子文献包含的新字将近一万字,远超出大五码的造字容量。目前已造4555字,如果经常使用,务必安装造字档。限于人力,沿用当初以点阵方式制作的造字,直接转换为Windows造字。
  有的学者在检索汉籍电子文献之余,希望了解各书依据的版本、汉籍电子文献的发展近况、或行将制作的资料库等事项。这些事项均已包含于本院资讯所研究员谢清俊教 授撰写的《中央研究院古籍全文资料库的发展概要》之内。唯汉籍资料库的内容快速增加,该文发表于1997年3月,不足或不合之处日增,所以另关汉籍电子文献书单查询程式,随时报告资料库的现况,欢迎有兴趣者参考。
  在李院长的推动,以及本院人文各研究所的呼应之下,本院「汉籍电子文献协调委员会」逐步扩大汉籍电子文献的开放程度。1997年3月6日,院长召开 「中央研究院汉籍电子文献开放说明会」,公布 「中央研究院汉籍电子文献资料库国内机构使用办法」,为其先声。从此,台湾各机构只须支付少许年费,即可使用几近所有的汉籍资料库,不限使用时间、次数,不限检索功能。两年后,为促成国内人士即时运用是项学术资源,自1999年4月1日起,进一步开放个人付费使用汉籍电子文献,并制定「中央研究院汉籍电子文献资料库国内个人使用办法」。
  前述97年召开的记者会上曾经提及,本院将就既有的汉籍资料库,摘录其中有关一般文史教育的内容,编制为人文资料库(师生版),供国小、国中、高中以及大学通识教 育的师生免费使用,藉以增强汉籍资料库在教育学术界的效益。同年六月中旬,杨国枢副院长指示扩大此资料库的开放范畴,使及于一般社会人士与海外人士。这个资料库稍后于当年八月初编成上线。顺此理念发展,又扩而大之,本院人文各所在千喜年之前,已自然形成大幅度免费开放的共识,并于1999年7月9日的例行记者会上,正式公布。加入免费行列,且毫无使用限制的资料库,包括二十五史、十三经、台湾方志、台湾档案及台湾文献,合计约七千万字。其时,尚需付费的资料量只佔40%不到,而人文资料库(师生版)的阶段性任务,宜可告一段落。
  制作汉籍资料库的软体工具命名为瀚典全文检索系统,取典籍丰富浩瀚之意。此工具由本院计算中心发展维护,它的WWW检索程式于1995年6月11日上线,希望初学乍用者会感到容易入手!使用之馀,更欢迎随时赐教。本中心另备有文字介面版检索程式,功能比较繁複,专供资料库建製者及资深的查询者使用。

安装造字

此造字档包含造字4555种。安装步骤如下:
1.传输造字档 eudc.exe, 先置放于其他目录之下, 再至该目录以滑鼠点选(click) eudc.exe二次展开, 档案分别为造字档eudc.tte及仓颉码档eudccj.tbl, 再将eudc.tte复制到C:\WINDOWS目录下。
2.依「开始」→「执行」,输入「eudcedit」的操作顺序启动造字程式。(windows 8.1/10请在「开始」上按右键方可找到「执行」。)
3.将游标移至「档案」/「字型连结」/「与所有字型连结」/「确定」。
4.系统即自动将 Windows 目录之下的 Eudc 档案作一 关联,画面出现造字表及造字,请按确定, 此时画面上端出现【字集:ChineseBig5】、【字码:FA40】、【字型:全部】、【档案:EUDC】等讯息,安装作业至此完成。
5.安装仓颉输入法: 点选编辑/输入法连结, 画面出现储存档案讯息。请注意左上角, 如为注音, 按取消, 等待下个画面, 直到该画面为仓颉时, 选择eudccj.tbl档, 并按确定。 随即出现造字及仓颉码的讯息, 请按取消。
6.点选档案/结束, 终止造字程式。

中文新闻分类语料库

发表于 2018-06-03

提供者:朱述承
访问地址:http://download.cnblogs.com/finallyliuyu/corpus.rar
博客地址:http://www.cnblogs.com/finallyliuyu/archive/2010/09/11/1824091.html

语料素材来源

凤凰新闻中心、网易新闻中心、腾讯新闻中心、新浪新闻中心。

语料库整理提供者

刘禹

语料库空间提供方

博客园(无偿提供)

说明

1、下载地址提供的是MS SQL2000数据库的备份文件。使用此数据库,您需要安装 MS SQL2000 server,然后将corpus.rar解压并还原。压缩包大小为54.8M,共包含39247篇新闻,分为历史、军事、文化、读书、教育、IT、娱乐、社会与法制等八个类别。历史类、文化类、读书类新闻来自于凤凰网,IT类的新闻全部来自tech.qq,教育类的新闻来自edu.qq,娱乐类的新闻来自网易。社会与法制类的新闻来自于新浪和腾讯的几个版面;
2、需要特别注意的是,有的新闻在开头处有大量空白,因此在查询数据库ArticleText字段中有大片空白的,不是空新闻,是整个新闻体截断显示的缘故。
3、有关语料库的其他情况,请参考《献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之一》。

搜文解字

发表于 2018-06-03

提供者:朱述承
访问地址:http://words.sinica.edu.tw/

概述

“搜文解字”是台湾中央研究院语言学研究所筹备处文献语料库研究室、历史语言研究所金文资料库工作室、资讯科学研究所词库小组文字处理组、元智大学/华典籍网路系统研究室联合开发的语文参考室,不但可以检索新 词读音、词义、用法出处的线上工具书,也可提供相关 的语言、文字、与文学知识。共含四个部份:
  『搜﹝搜词寻字﹞』 『文﹝文学之美﹞』
  『解﹝游戏解惑﹞』 『字﹝古文字的世界﹞』

系统说明

◎搜词寻字:是个网路上的词典工具书,提供多样多功能的检索方式。
◎文学之美:是线上的文学知识中心,不但可以浏览古典文学作品也提供了多媒体、多面向的讯息。
◎游戏解惑:把各种语文知识融合到机智问答、文字接龙、文字智慧拼盘等游戏中。
◎古文字的世界:则由甲骨文、金文、到东周文字,细述汉字的来源、演变及意义。

系统介绍

本系统以平易近人的人机介面呈现语文知识,是一部中文的新世代网上数位语文字典。在「搜文解字」这个虚拟参考室的检词部份裡,包含了多种不同时代的词汇资料库与词典,现已扩充至历代典籍如《论语》、《孟子》、《老子》、《庄子》及《红楼梦》、《全唐诗》等古籍。未来仍可随时扩充,连接新的语文知识资料。经由多种搜寻途径,更使读者能轻易从线上取得所需的语文知识。
本系统在「搜文解字」大计画下连结「平衡语料库」,为一个以语境为贵的语词检索系统,并附加了生动的线上即时辅佐救援,随时预备为您排难解疑。而轻松地在查询工作进行的同时,亦增加一点儿语文小知识。此外,利用造词、注音、词语出处等方法加以搜寻,不但涵盖一般传统辞典所能提供您的结果,还有典籍原文出处的同步一贯查询,以及新创以语料有五百万词之多的语料库为基础,提供语境上下文来突显关键词语法和语义的相关信息,更是「字字珠玑」系统的特色。希望这个系统能帮网友在上网游环宇之余,也可轻松提升自己的中国语文素养。
本系统之应用,以「字」、「词」、「文」为三大检索途径,各途径下又分列不同的搜寻条件,兹简述并示例如下:
〈一〉字:依文字之形、音、义分为字形搜寻、音韵搜寻、字典
(1〉字形搜寻:
   〈a〉部件搜寻-依据「含有某部件」、「字首为某部件」及「字尾为某部件」搜寻所需文字。
      例如:所有含「力」部件的文字:功、加、力…
字首为「力」部件的文字:加、力…
      字尾为「力」部件的文字:功、劳、力…
   〈b〉部首笔画搜寻-根据部首、笔画或总笔画搜寻所需文字
      例如:「力」部,三画者:功、加…
      总笔画五画者:功、加、付…
〈2〉音韵搜寻:依据文字之韵母、声母、声调或汉语拼音检索所需文字
      例如:韵母为ㄢ者:沾、山…
    声母为ㄆ者:喷、扑…
    声调为二声者:人、平…
    汉语拼音为zi4者:字、渍…
〈3〉字典:在「字典」功能中,输入欲查文字,即可同时显示文字之形、音、义。
    例如:「丁」:
    解形-《说文》:「丁,夏时万物皆丁实。象形。丁承丙,象人心。」
       《通训定声》:「丁,鐕也。象形。今俗以钉为之,其质用金或竹若木。
    注音-ding1。《广韵》:当经切,平青端。耕部。
    释义:(1)天干的第四位,与地支相配,用以纪年、月、日。
       (2)序数第四的代称。
       (3)钉子。
       (4)……
〈二〉词:由形式、音韵及出处分列造词搜寻、音韵搜寻及出处搜寻。
(1) 造词搜寻:
   (a)一般搜寻-依个人需要查询「含有某字的词」、「词首为某字的词」或「词
      尾为某字的词」。
      例如:含有「夫」字的词:老夫子、丈夫、夫人
     词首为「夫」字的词:夫妻、夫子
       词尾为「夫」字的词:可靠性、重要性
   (b)成语搜寻-文字在成语中的活用。
      例如:一饮而尽、一炮而红
   (c)重叠词搜寻-字数或形式的组合变化
      例如:AAB-走走路、洗洗澡
      ABB-亮闪闪、红通通
AABB-高高兴兴、平平安安
     ABAB-高兴抱兴、研究研究
   (d)字数搜寻-依字数搜寻一、二、三、四、五字或以上的词
      例如:大年夜、心有灵犀一点通
(2)音韵搜寻:依据韵母、声母、声调、汉语拼音,或同音、双声、叠韵、双声
      叠韵等条件搜寻。
      例如:
         同音词:ㄒㄧㄥˊ ㄕˋ或xing2 shi4同音者(形式、行事…)
         双声词:名目、思索
         叠韵词:混吨、讚歎
         双声叠韵:夫妇、想像
(3) 出处搜寻:提供搜寻的范围包括《论语》、《孟子》、《大学》、《中庸》、《老子》、《庄子》、《唐诗三百首》。
(三)文:「出处搜寻」的功能提供文句出处检索。在搜寻书目中(即《论语》、《孟子》、《大学》、《中庸》、《老子》、《庄子》、《唐诗三百首》),利用「一般搜寻」或「有趣的诗文查询」寻找欲知文句。
  (1) 一般搜寻:自搜寻范围中寻找含有某段文句的句子。
  (2) 有趣的诗文查询:欲查诗文,可利用作者、诗题或诗句搜寻。 

参考网站

中央研究院现代汉语平衡语料库

http://www.sinica.edu.tw/SinicaCorpus

古汉语语料库

http://www.sinica.edu.tw/ftms-bin/ftmsw3

国语汇词典

http://www.edu.tw/mandr/clc/dict/

网路展书读

http://cls.hs.yzu.edu.tw/home.htm

红楼梦

http://cls.hs.yzu.edu.tw/hlm/

词库小组

http://ckip.iis.sinica.edu.tw/CKIP/

中央研究院历史语言研究所/文物陈列馆

http://www.ihp.sinica.edu.tw/chen

中央研究院历史语言研究所/史学连线

http://saturn.ihp.sinica.edu.tw/~liutk/shih

台南师院文字学多体媒教学

http://www.cc.ntntc.edu.tw/wang

清华大学「董作宾百年诞展」

http://www.arts.nthu.edu.tw/Exhibition/dong/index.html

不朽的殿堂-汉代的墓葬与文化

http://www.sinica.edu.tw/~hantomb/

香港中文大学/郭店楚简资料库

http://decapps.lib.cuhk.edu.hk/basisbwdocs/bamboo/bam_main.html

文林辞典

http://decapps.lib.cuhk.edu.hk/basisbwdocs/bamboo/bam_main.html

内阁大库档案

发表于 2018-06-03

提供者:朱述承
访问地址:http://archive.ihp.sinica.edu.tw/mctkm2/index.html

概述

内阁大库档案原藏于清宫内阁大库,宣统元年(1909)因大库整修而被移出。清亡后几经转手,一度被卖入同懋增纸厂作还魂纸,最后在首任所长傅斯年先生的奔走下,于民国十八年(1929)自李盛铎手中购入。这批档案有四千多件明代(1368-1644)文书,三十多万件清代(1644-1911)档册,包括内阁收贮的制诏诰敕、题奏本章、朝贡国表章、内阁各厅房处的档案、修书各馆档案、试题、试卷、渖阳旧档等,而以题奏本章佔最大宗。内阁大库档案内容多涉及一般行政事务,而许多案例并不见于会典或则例,是研究制度史的重要材料,同时对于社会史、经济史或法制史等的研究也极具价值。

使用

分为“免费使用”和“授权使用”两种使用方式。

大连理工大学情感词汇本体库

发表于 2018-06-03

提供者:杜成玉
下载地址:http://ir.dlut.edu.cn/file/emotionontology/2918938192

概述

中文情感词汇本体库是大连理工大学信息检索研究室在林鸿飞教授的指导下经过全体教研室成员的努力整理和标注的一个中文本体资源。该资源从不同角度描述一个中文词汇或者短语,包括词语词性种类、情感类别、情感强度及极性等信息。中文情感词汇本体的情感分类体系是在国外比较有影响的Ekman的6大类情感分类体系的基础上构建的。在Ekman的基础上,词汇本体加入情感类别“好”对褒义情感进行了更细致的划分。最终词汇本体中的情感共分为7大类21小类。构造该资源的宗旨是在情感计算领域,为中文文本情感分析和倾向性分析提供一个便捷可靠的辅助手段。中文情感词汇本体可以用于解决多类别情感分类的问题,同时也可以用于解决一般的倾向性分析的问题。

相关论文

[1]卓敏,吴建平.当代青年雾霾情感的可视化分析——以微博用户为例[J].青年研究,2015(04):47-56+95.
[2]林明明. 基于三维坐标的多元量化消费情感分类研究[D].辽宁工程技术大学,2015.
[3]夏南强,肖琴.微博群体信息及其主观倾向性分析[J].情报科学,2014,32(09):22-29.
[4]肖琴. 基于主观倾向性分析的微博群体信息采集研究[D].华中师范大学,2013.
[5]王洪伟,郑丽娟,尹裴,史伟.在线评论的情感极性分类研究综述[J].情报科学,2012,30(08):1263-1271+1276.

Antconc3.21语料库分析统计软件

发表于 2018-06-03

提供者:杜成玉
下载地址:http://www.laurenceanthony.net/software/antconc/

概述

该语料库工具是语料库检索软件,具有以下特点:
(1)能识别txt,html,htm,xml这四种格式;
(2)可以统计出关键词在文本中出现的次数;
(3)能列出文本中的词项数和词形,还能将词项数按出现的频率高低排列;
(4)文本去重;
(5)能够将某个词的搭配按照统计数据从高到低或者反向排序。
(6)模糊检索

使用教程:

(1)从file菜单的openfile(打开文件)或opendir(打开目录)选择一个或多个要处理的文件,选出来的文件按顺序在主窗户的左边框里显示出来。
(2)在左边的按钮条的输入框里输入一个检索词
(3)使用右边”SearchWindowSize”(检索窗口大小)的按钮条的增加和减少按钮来选择在检索词两边显示的字符数。
(4)按“Start”(开始)键开始产生索引行的检索结果。检索过程中可按“stop”(停止)键随时停止检索。
(5)使用KwicSort(上下文关键词分类)下的按钮条选择一个目标词来重排索引行,0是检索词,1L,2L是检索词左边的第一,第二个单词,1R,2R是检索词右边第一,第二个单词。
(6)按“Sort”(分类)键开始分类处理。
(7)将指针移到其中一行索引行的突出的检索词之上,系统默认为蓝色。指针会转变成一个手形的图标。点击突出的检索词,可以看到检索词在原文中出现的情况。

SVHN

发表于 2018-06-02

提供者:卢梦依

简介

SVHN数据来源于 Google 街景视图中房屋信息,它是一个真实世界的图像数据集,用于开发机器学习和对象识别算法,对数据预处理和格式化的要求最低。它跟MNIST相似,但是包含更多数量级的标签数据(超过60万个数字图像),并且来源更加多样,用来识别自然场景图像中的数字。

地址

http://ufldl.stanford.edu/housenumbers/

相关论文

[1]Shuai Li,Wenfeng Song,Hong Qin,Aimin Hao. Deep variance network: An iterative, improved CNN framework for unbalanced training datasets[J]. Pattern Recognition,2018,81.
[2]Andrey V. Savchenko,Natalya S. Belova. Unconstrained face identification using maximum likelihood of distances between deep off-the-shelf features[J]. Expert Systems With Applications,2018,108.
[3]Alistair Peter McGeorge. An Urban Partnership for Inner Sydney Social Inclusion, Health and Well-being[J]. International Journal of Integrated Care,2017,17(3).

Labeled Faces in the Wild数据集

发表于 2018-06-02

提供者:卢梦依

简介

该数据集是用于研究无约束面部识别问题的面部照片数据库。数据集包含从网络收集的13000多张图像。每张脸都贴上了所画的人的名字,图片中的1680人在数据集中有两个或更多不同的照片。

链接

http://vis-www.cs.umass.edu/lfw/

相关论文

[1]David Rim,Md Kamrul Hasan,Fannie Puech,Christopher J. Pal. Learning from weakly labeled faces and video in the wild[J]. Pattern Recognition,2015,48(3).
[2]Davide Lombardo. An explicit open image theorem for products of elliptic curves[J]. Journal of Number Theory,2016,168.
[3]M. Nazir,A. Majid-Mirza,S. Ali-Khan. PSO-GA Based Optimized Feature Selection Using Facial and Clothing Information for Gender Classification[J]. Journal of Applied Research and Technology,2014,12(1).
[4]Jiang-Jing Lv,Cheng Cheng,Guo-Dong Tian,Xiang-Dong Zhou,Xi Zhou. Landmark perturbation-based data augmentation for unconstrained face recognition[J]. Signal Processing: Image Communication,2016,47.
[5]Blondin , John M.,Kallman , Timothy R.,Pereyra , Nicolas Antonio. Hydrodynamic Models of Line-Driven Accretion Disk Winds in Cataclysmic Variables[J]. Revista Mexicana de Astronomía y Astrofísica : Universidad Nacional Autónoma de México. Instituto de Astronomía,2001(11).
[6]Ian W. Roxburgh. Challenges to Theories of the Structure of Moderate-Mass Stars[M].Springer Berlin Heidelberg:2005-07-19.
[7]Andrey V. Savchenko,Natalya S. Belova. Unconstrained face identification using maximum likelihood of distances between deep off-the-shelf features[J]. Expert Systems With Applications,2018,108.

LSUN

发表于 2018-06-02

提供者:卢梦依

简介

国外的PASCAL VOC和ImageNet ILSVRC比赛使用的数据集,数据领域包括卧室、冰箱、教师、厨房、起居室、酒店等多个主题。

链接

http://lsun.cs.princeton.edu/2017/

相关论文

[1]Blondin , John M.,Kallman , Timothy R.,Pereyra , Nicolas Antonio. Hydrodynamic Models of Line-Driven Accretion Disk Winds in Cataclysmic Variables[J]. Revista Mexicana de Astronomía y Astrofísica : Universidad Nacional Autónoma de México. Instituto de Astronomía,2001(11).
[2]Ian W. Roxburgh. Challenges to Theories of the Structure of Moderate-Mass Stars[M].Springer Berlin Heidelberg:2005-07-19.

1…678…22

CNLR

语料库、数据集及工具资源和教程

218 日志
3 标签
© 2018 CNLR
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4