CorpusWordFrequencyApp

发表于 2018-04-29

提供者：朱述承

简介

CorpusWordFrequencyApp是一款免费的语料库统计工具，也是由“语料库在线“这一网站提供。CorpusWordFrequencyApp继承了该网站组织设计的工具简洁易操作的特点，十分适合普通用户的操作和使用。CorpusWordFrequencyApp可以统计文件或者批量统计文件夹中的字频或者词频，分别计算出出现次数和出现频率，并可保存字频或者词频数据，方便进一步的统计分析。

下载地址

http://www.aihanyu.org/cncorpus/Resources.aspx

使用方法

A．通过文给出的官方下载地址下载工具包的压缩文件，下载过后解压缩就可以直接看到CorpusWordFrequencyApp的应用程序。
B．成功打开CorpusWordFrequencyApp应用程序后通过左侧的“按文件选择“或者“按文件夹选择”选择需要进行统计的文件或这文件夹。同时在左侧的“文件列表”中还可以选择对文件进行移除。
C．中间可以选择字频统计或者词频统计，以及是否只统计汉字。
D．中间的下方给出了一些统计的系统信息。
E．右侧给出了字频统计和词频统计的统计结果，并可选择对统计数据进行保存。

BFSU PowerConc

发表于 2018-04-29

提供者：朱述承

简介

BFSU PowerConc是由北京外国语大学语料库团队开发的一款免费的语料库检索工具软件，基于Windows系统。BFSU PowerConc支持英语和汉语两种语言，且功能十分齐全——支持基于正则表达式的关键词索引，包括单词及词块检索、单词曲折词形检索、词性检索、任意词检索、混合检索、正则表达式检索、区分大小写的检索、批量检索、Intergraph检索、搭配共现检索、二次检索等多种检索方式；支持生语料和标注过的熟语料两种形式的语料检索；支持语料库定量研究方面的各类统计分析功能，如主题词的计算、结果抽样等。BFSU PowerConc下载时提供配套的说明文档。

地址

http://www.bfsu-corpus.org/static/PowerConc.html

使用方法

A．通过上面介绍的官方网站下载BFSU PowerConc的工具压缩包，然后进行解压缩，选择相应的应用程序便可以运行。
B．载入语料库。在Settings栏目下点击Folder(s)，找到目标语料库文件夹，然后点击OK按钮。语料库载入完毕后，语料库目标信息会显示在界面上。
C．如需进行“词性”检索，需要在Settings栏目下点击Load List选择加载赋码归类词表。
D．在Concordance栏目下可以按照规则进行一系列的检索。
E．在N-gram List栏目下可以对相应的字词进行统计。

CorpusWordParser

发表于 2018-04-29

提供者：朱述承

简介

CorpusWordParser是一款免费的语料库标注工具，是由“语料库在线“这一网站提供的。CorpusWordParser分为在线版和下载的工具包版。CorpusWordParser的操作界面十分简洁，会使用计算机的普通人员都可以直接上手使用。CorpusWordParser是根据软件自带的标注集或者用户导入的标注集进行标注，可以做到对语句先分词，后标注，其标注效率和准确率都较高。

在线地址

http://www.aihanyu.org/cncorpus/CpsWParser.aspx

工具包下载地址

http://www.aihanyu.org/cncorpus/Resources.aspx

使用方法

A．通过上文给出的官方下载地址下载工具包的压缩文件，下载过后解压缩就可以直接看到CorpusWordParser的应用程序。
B．使用CorpusWordParser之前可能需要对电脑进行相关配置，系统会自动弹出需要配置的内容，按照系统指示一步步配置即可。
C．成功打开CorpusWordParser应用程序后通过“文件“下的”打开文件“选择需要进行分词或者标注的文件。注意该软件只支持打开文本格式(.txt)的文件，其他类型文件需先另存为文本文件格式后再处理。软件可以自动识别、处理文本文件的不同字符编码（GB或Unicode等）。
D．用户还可以在“设置”中根据自身需求勾选其他的附加功能进行配置。
E．配置完成后点击“切分标注”即可看到结果。点击“文件”下的“保存文件”可对已经分词标注完毕的文本结果进行保存。

CIFAR-10/CIFAR-100数据集

发表于 2018-04-29

提供者：刘晓

地址：http://www.cs.toronto.edu/~kriz/cifar.html

简介

CIFAR-10和CIFAR-100被标记为8000万个微小图像数据集的子集。他们由Alex Krizhevsky，Vinod Nair和Geoffrey Hinton收集。

主要功能与内容

CIFAR-10数据集

CIFAR-10数据集由10个类的60000个32x32彩色图像组成，每个类有6000个图像。有50000个训练图像和10000个测试图像。
数据集分为五个训练批次和一个测试批次，每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序包含剩余图像，但一些训练批次可能包含来自一个类别的图像比另一个更多。总体来说，五个训练集之和包含来自每个类的正好5000张图像。
以下是数据集中的类，以及来自每个类的10个随机图像：

这些类完全相互排斥。汽车和卡车之间没有重叠。“汽车”包括轿车，SUV，这类东西。“卡车”只包括大卡车。都不包括皮卡车。
airplane/automobile/bird/cat/deer/dog/frog/horse/ship/truck

CIFAR-100数据集

这个数据集就像CIFAR-10，除了它有100个类，每个类包含600个图像。，每类各有500个训练图像和100个测试图像。CIFAR-100中的100个类被分成20个超类。每个图像都带有一个“精细”标签（它所属的类）和一个“粗糙”标签（它所属的超类）
以下是CIFAR-100中的类别列表：

Superclass	Classes
aquatic	mammals beaver, dolphin, otter, seal, whale
fish	aquarium fish, flatfish, ray, shark, trout
flowers	orchids, poppies, roses, sunflowers, tulips
food	containers bottles, bowls, cans, cups, plates
fruit and vegetables	apples, mushrooms, oranges, pears, sweet peppers
household electrical devices	clock, computer keyboard, lamp, telephone, television
household	furniture bed, chair, couch, table, wardrobe
insects	bee, beetle, butterfly, caterpillar, cockroach
large carnivores	bear, leopard, lion, tiger, wolf
large man-made outdoor things	bridge, castle, house, road, skyscraper
large natural outdoor scenes	cloud, forest, mountain, plain, sea
large omnivores and herbivores	camel, cattle, chimpanzee, elephant, kangaroo
medium-sized mammals	fox, porcupine, possum, raccoon, skunk
non-insect invertebrates	crab, lobster, snail, spider, worm
people	baby, boy, girl, man, woman
reptiles	crocodile, dinosaur, lizard, snake, turtle
small mammals	hamster, mouse, rabbit, shrew, squirrel
trees	maple, oak, palm, pine, willow
vehicles 1	bicycle, bus, motorcycle, pickup truck, train
vehicles 2	lawn-mower, rocket, streetcar, tank, tractor

使用说明

数据及下载

CIFAR-10 Python版本
 CIFAR-10 Matlab版本
 CIFAR-10二进制版本（适用于C程序）
CIFAR-100 python版本
 CIFAR-100 Matlab版本
 CIFAR-100二进制版本（适用于C程序）

数据集布局

CIFAR-100的python和Matlab版本的布局与CIFAR-10相同。

Python / Matlab版本
我将描述数据集的Python版本的布局。Matlab版本的布局是相同的。
该存档包含文件data_batch_1，data_batch_2，…，data_batch_5以及test_batch。这些文件中的每一个都是用cPickle生成的Python“pickled”对象。这里是一个python2例程，它将打开这样的文件并返回一个字典：

def unpickle(file):
    import cPickle
    with open(file, 'rb') as fo:
    dict = cPickle.load(fo)
    return dict

下面是一个python3实例

def unpickle(file):
    import pickle
    with open(file, 'rb') as fo:
        dict = pickle.load(fo, encoding='bytes')
    return dict

以这种方式加载的每个批处理文件都包含一个包含以下元素的字典：
数据 - 一个10000x3072 uint8的numpy数组。阵列的每一行存储32x32彩色图像即每一行存储32323=3072个数字信息。前1024个条目包含红色通道值，下一个1024个绿色，最后1024个蓝色。图像以行优先顺序存储，以便数组的前32个条目是图像第一行的红色通道值。
标签 - 范围为0-9的10000个数字的列表。索引i处的数字表示阵列数据中第i个图像的标签。
该数据集包含另一个名为batches.meta的文件。它也包含一个Python字典对象。它有以下条目：
label_names - 一个10个元素的列表，它为上述标签数组中的数字标签赋予了有意义的名称。例如，label_names [0] ==“飞机”，label_names [1] ==“汽车”等

二进制版本
CIFAR-10二进制版本包含文件data_batch_1.bin，data_batch_2.bin，…，data_batch_5.bin以及test_batch.bin。这些文件中的每一个格式如下：

<1×标签> <3072×像素>
...
<1×标签> <3072×像素>

换句话说，第一个字节是第一个图像的标签，它是一个0-9范围内的数字。接下来的3072个字节是图像像素的值。前1024个字节是红色通道值，下1024个绿色，最后1024个蓝色。值以行优先顺序存储，因此前32个字节是图像第一行的红色通道值。
每个文件都包含10000个这样的3073字节的“行”图像，但没有任何分隔行的限制。因此每个文件应该完全是30730000字节长。
还有另一个文件，称为batches.meta.txt。这是一个ASCII文件，它将0-9范围内的数字标签映射到有意义的类名称。它仅仅是10个类名的列表，每行一个。第i行的类名称对应于数字标签i。

CIFAR-100的二进制版本与CIFAR-10的二进制版本相似，只是每个图像都有两个标签字节（粗略和细小）和3072像素字节，所以二进制文件如下所示：

<1 x粗标签> <1 x精标签> <3072 x像素>
...
<1 x粗标签> <1 x精标签> <3072 x像素>

YouTube-8M 视频数据集

发表于 2018-04-29

提供者：刘晓

地址：https://research.google.com/youtube8m/

简介

谷歌发布一个大型视频数据集 YouTube-8M 。其中包含了 800 万个 YouTube 视频的 URL，代表 50 万小时长度的视频，并带有视频标注。这些标注来自一个多样化的、包含了 4800 个知识图谱实体（Knowledge Graph entity）的集合。与之前已有的视频数据集相比，YouTube-8M 的规模和多样性都得到了显著的提升。先前最大的视频数据集 Sports-1M ，包含了大约 100 万段 YouTube 视频和 500 个体育领域的分类。

Git地址：https://github.com/google/youtube-8m
比赛官网：https://research.google.com/youtube8m/index.html
官方发布视频特征提取代码：https://github.com/google/youtube-8m/tree/master/feature_extractor
冠军代码：https://github.com/antoine77340/Youtube-8M-WILLOW

主要内容与使用

数据集介绍

4716 类标签，多标签体系，平均每个视频 3.4 个标签。标签定义下载：https://research.google.com/youtube8m/csv/vocabulary.csv
Each video must be public and have at least 1000 views
Each video must be between 120 and 500 seconds long
Each video must be associated with at least one entity from our target vocabulary
Adult & sensitive content is removed (as determined by automated classifiers)
特征分两种：frame-leval, video-level，每种都包括 rgb 特征、audio 特征。官网下载
视频特征源自 inception-v3 TensorFlow model & PCA
音频特征源自《CNN Architectures for Large-Scale Audio Classification》
保存文件格式为 .tfrecord

本地特征提取

官方开放的只有 frame-level 的特征提取工具。成绩比较好的队伍，用到的也是 frame-level 特征（信息更多）参见论文《YouTube-8M: A Large-Scale Video Classification Benchmark》
运行环境检查
（1）环境要求：TensorFlow, OpenCV (linked with ffmpeg)
（2）检查语句，返回 True 即可：

python -c ‘import tensorflow; import cv2; print cv2.VideoCapture().open(“/[path]/[to]/[some]/video1.mp4”)’

视频名称、类别信息 .csv 格式保存为 /[path]/[to]/[some]/vid_dataset.csv，video1.mp4、video2.mp4 是本地视频的名称。52;3;10 是其所属的类别号（人为定义），可以包括多标签，分号隔开。同一份文件可以包含多个视频：

/[path]/[to]/[some]/video1.mp4,52;3;10
/[path]/[to]/[some]/video2.mp4,1;2
提取特征语句，特征保存到 output.tfrecord 文件：

python extract_tfrecords_main.py –input /[path]/[to]/[some]/vid_dataset.csv –output_tfrecords_file /[path]/[to]/[some]/output.tfrecord

训练 & inference

有 .tfrecord 文件后，参见冠军代码：https://github.com/antoine77340/Youtube-8M-WILLOW
模型保存在参数 –train_dir 指定的位置会产生的文件夹，训练 & inference 指定相同的文件夹
参考：https://blog.csdn.net/yOung_One/article/det

MINIST

发表于 2018-04-29

提供者：刘晓

地址：https://blog.csdn.net/amusi1994/article/details/75331115

简介

MNIST（维基百科）是一个最大的手写字符数据集，其经常被应用在机器学习领域，用于训练和测试。

MNIST对于机器学习，就好比于Hello world相比于编程学习。

MNIST是一个简单的计算机视觉数据库，其包含了很多张手写数字图像，如:

来自NIST的原始黑白（双色）图像尺寸标准化，以适应20×20像素Box，同时保持其长宽比。由于归一化算法使用的抗混叠技术，所得图像包含灰度级。通过计算像素的质心并转换图像以使该点位于28x28场的中心，图像以28×28图像为中心。

通过一些分类方法（特别是基于模板的方法，例如SVM和K-最近邻），当数字以边界框为中心而不是质心时，错误率提高。

MNIST数据库由NIST的特殊数据库3和特殊数据库1构成，其中包含手写数字的二进制图像。 NIST原来指定为SD-3作为训练集，SD-1作为其测试集。然而，SD-3比SD-1更cleaner和更容易识别。其原因是在普查局员工（Census Bureau employees）中收集SD-3，在高中生（high-school students）中收集SD-1。从学习实验中得出明确的结论要求，结果与完整的样本集中的训练集和测试的选择无关。因此，有必要通过混合NIST的数据集来构建一个新的数据库。

MNIST训练集由SD-3的30,000个模式和来自SD-1的30,000个模式组成。我们的测试套件由SD-3的5,000个模式和来自SD-1的5,000个模式组成。 60,000个模式训练集包含大约250位作家的例子。我们确保训练集和测试集的作者集合是不相交的。

SD-1包含由500个不同作者撰写的58,527位数字图像。与SD-3相反，其中来自每个写入器的数据块按顺序出现，SD-1中的数据被加扰。 SD-1的作者身份可用，我们使用这些信息来解读作者。然后我们将SD-1分成两部分：由前250位作家撰写的角色进入我们的新的训练集。剩下的250位作家被放在我们的测试集中。因此，我们有两套，每套有近30,000个例子。新的训练集完成了SD-3的例子，从模式＃0开始，全面训练了6万个训练模式。类似地，新的测试集完成了SD-3示例，从模式＃35,000开始，以全面设置6万个测试模式。只有10,000个测试图像的子集（来自SD-1的5,000个和来自SD-3的5,000个）在本网站上可用。完整的6万个样本训练集可用。

已经通过该训练集和测试集测试了许多方法。这里有几个例子。有关方法的详细信息将在即将发布的论文中给出。其中一些实验使用数据库版本，其中将去偏移的输入图像（通过计算最靠近垂直线的形状的主轴，并移动线条使其垂直）。在其他一些实验中，训练集增加了原始训练样本的人为扭曲版本。失真是移位，缩放，偏移和压缩的随机组合。

在这篇文章中，通过读取MNIST数据集（图像和标签数据），显示图像。

主要内容与使用教程

手写数字的MNIST数据库可从官网获得，其中包含60,000个示例的训练集以及10,000个示例的测试集。它是NIST提供的更大集合的子集。这些数字已经过尺寸标准化并以固定尺寸的图像为中心。对于那些想要在实际数据上尝试学习技术和模式识别方法，同时在预处理和格式化上花费最少的人，这是一个很好的数据库。

下载MNIST数据集

官网下载四个文件，分别是t10k-images-idx3-ubyte（训练集–图像）、t10k-labels-idx1-ubyte（训练集–标签）、t10k-images-idx3-ubyte（测试集–图像）、t10k-labels.idx1-ubyte（测试集–标签）：

MNIST结构分析

mnist的结构如下，选取train-images

TRAINING SET IMAGE FILE (train-images-idx3-ubyte):

读取图像数据

先使用二进制方式读取文件

filename = '路径名/train-images.idx3-ubyte'  
binfile = open(filename , 'rb')  # python3 'r'  but python2 'rd'  
buf = binfile.read()

使用struct解包

index = 0  
magic, numImages, numRows, numColumns = struct.unpack_from('>IIII' , buf , index)  
index += struct.calcsize('>IIII')

‘>IIII’是指使用大端法读取4个unsigned int32

读取图像测试

im = struct.unpack_from('>784B' , buf , index)  
index += struct.calcsize('>784B')  

im = np.array(im)  
im = im.reshape(28,28)  

fig = plt.figure()  
plotwindow = fig.add_subplot(111)  
plt.imshow(im , cmap = 'gray')  
plt.show()

(28,28)是MNIST图像的固定格式；
‘>7894B’是指用大端法读取784个unsigned byte字节，因为28*28 = 784

读取标签数据
每次读入2个unsigned int的元数据，并且相应的调整位置，代码如下：

<span style="font-size:14px;">magic, self.train_label_num = struct.unpack_from('>II', buf, index)  
    index += struct.calcsize('>II')  

    for i in range(self.train_label_num):  
        # for x in xrange(2000):  
        label_item = int(struct.unpack_from('>B', buf, index)[0])  
        self.train_label_list[ i , : ] = label_item  
        index += struct.calcsize('>B')</span>

代码：

import numpy as np  
import struct  
import matplotlib.pyplot as plt  

filename = 'F:/Pro_Data/Deep&Machine Learning/Deep Learning/MNIST/Data Sets/train-images.idx3-ubyte'  
binfile = open(filename , 'rb')  # python3 'r'  but python2 'rd'  
buf = binfile.read()  

index = 0  
magic, numImages, numRows, numColumns = struct.unpack_from('>IIII' , buf , index)  
index += struct.calcsize('>IIII')  

im = struct.unpack_from('>784B' , buf , index)  
index += struct.calcsize('>784B')  

im = np.array(im)  
im = im.reshape(28,28)  

fig = plt.figure()  
plotwindow = fig.add_subplot(111)  
plt.imshow(im , cmap = 'gray')  
plt.show()

输出结果：

80 Million Tiny Image 图像数据

发表于 2018-04-29

提供者：刘晓

地址：http://groups.csail.mit.edu/vision/TinyImages/

简介

80 Million Tiny Image 是一个图像数据集，包括 79302017张分辨率为 32x32 的小图片。全部文件过大（约400GB）。
下载时包含了5个文件,网站上也提供了示例代码教你如何加载这些数据!

Image binary (227GB) Download
Metadata binary (57GB) Download
Gist binary (114GB) Download
Index data (7MB) Download
Matlab Tiny Images toolbox (150kB) Download

主要内容与使用

数据集详情

原始数据名称:	80 Million Tiny Image 图像数据
数据介绍:	80 Million Tiny Image 是一个图像数据集，包括 79302017张分辨率为 32x32 的小图片。
属性数:
记录数:
无缺失值记录数:
数据来源:	http://horatio.cs.nyu.edu/mit/tiny/data/index.html
文件类型:	二进制压缩文件
文件大小:	372.53 Gb

7900万图像存储在一个巨大的二进制文件中，大小为227Gb。每幅图像附带的元数据也位于一个巨大的文件中，大小为57Gb。为了从这些文件中读取图像/元数据，官网提供了一些Matlab包装函数。有两种读取图像数据的功能版本：（i）loadTinyImages.m - 普通Matlab函数（无MEX），在32/64位下运行。按图像编号加载图像。默认使用这个。（ii）read_tiny_big_binary.m - 用于64位MEX函数的Matlab封装。比（i）更快更灵活，但需要64位机器。有两种类型的注释数据：（i）在annotations.txt中排序的手动注释数据，该数据保存手动检查的图像标签以查看图像内容是否与用于收集它的名词一致。一些其他信息，例如搜索引擎，也被存储。这些数据仅适用于很小一部分图像。（ii）存储在tiny_metadata.bin中的自动注释数据，包括与图像聚集有关的信息，例如搜索引擎，哪个页面，网址缩略图等。这些数据适用于所有7900万图像。

文件

.tgz文件应该包含10个文件：

loadTinyImages.m – 读取微型图像数据，纯粹的Matlab版本
loadGroundTruth.m – 读取保存手动注释的annotations.txt文件
read_tiny_big_binary.m – 读取微小图像数据，64位Matlab / MEX版本
read_tiny_big_metadata.m – 读取微小图像元数据，64位Matlab / MEX版本
read_tiny_gist_binary.m – 读取微小的Gist，64位的Matlab / MEX版本
read_tiny_binary_big_core.c – 用于图像读取的64位MEX源代码
read_tiny_metadata_big_core.c – 用于读取元数据的64位MEX源代码
read_tiny_binary_gist_core.c – 供读者阅读的64位MEX源代码
compute_hash_function.m – 用于执行快速字符串搜索的效用函数，如read_tiny_big_binary.m和read_tiny_big_metadata.m
fast_str2num.m – 用于 - read_tiny_big_metadata.m的实用程序函数
annotations.txt – 保存注释图像列表的文本文件
README.txt – this file

同时下载的包括以下文件：

tiny_images.bin - 包含79,302,017张图像的227Gb文件
tiny_metadata.bin - 57Gb file holding metadata for all 79,302,017 images保存所有79,302,017张图像的元数据的57Gb文件
tinygist80million.bin - 114Gb文件为所有79,302,017张图像保存384-dim Gist描述符

tiny_index.mat - 持有索引信息的7Mb文件，包括：我们在tiny_images.bin中有图像的所有75,846个名词的word-cell数组 num_imgs - 所有75,846个名词的每个名词的#images矢量

使用说明

在使用之，你必须做两件事：

在Matlab函数中设置绝对路径为二进制文件。总共需要设置7行：
（i）loadTinyImages.m，第14行 - 设置tiny_images.bin文件的路径
（ii）read_tiny_big_binary.m，第40行 - 设置tiny_images.bin文件的路径
（iii）read_tiny_big_binary.m，第42行 - 设置tiny_index.mat文件的路径
（iv）read_tiny_big_metadata.m，第63行 - 设置tiny_metadata.bin文件的路径
（v）read_tiny_big_metadata.m，第65行 - 设置tiny_index.mat文件的路径
（vi）read_tiny_gist_binary.m，第36行 - 设置tiny_index.mat文件的路径
（vii）read_tiny_gist_binary.m，第38行 - 设置tiny_metadata.bin文件的路径
如果使用MEX版本，则必须使用以下命令编译它们：
（i）mex read_tiny_binary_big_core.c
（ii）mex read_tiny_metadata_big_core.c
（iii）mex read_tiny_binary_gist_core.c

以下是一些正在使用的脚本示例。请查看每个文件顶部的注释以获得更详细的解释。

loadTinyImages.m
---------------

% load in first 10 images from 79,302,017 images
img = loadTinyImages([1:10]);

% load in 10 images at random q = randperm(79302017);
img = loadTinyImages(q(1:10));
%% N.B. function does NOT sort indices, so sorting beforehand would
%% improve speed.




loadGroundTruth.m
-----------------

% read in contents of annotation.txt file
[imageFileName, keyword, correct, engine, ind_engine, image_ndx]=loadGroundTruth;
%%% the labeling convention in correct is:
% -1 = Incorrect, 0 = Skipped, 1 = Correct
% Note that this different to the 'label' field produced by % read_tiny_big_metadata below (meaning of -1 and 0 are swapped)
% but the annotation.txt file information should be used in preference to
% that from read_tiny_big_metadata.m


   64-bit MEX versions: 
-------------------- 

read_tiny_big_metadata.m
----------------------

% load in filenames of first 10 images
data = read_tiny_big_metadata([1:10],{'filename'});

% load in search engine used for
% first 10 images from noun 'aardvark';

data = read_tiny_big_metadata('aardvark',[1:10],{'engine'});

read_tiny_big_binary.m
----------------------

% load in first 10 images from 79,302,017 images
img = read_tiny_big_binary([1:10]);
% note output dimension is 3072x10, rather than 32x32x3x10 % as for loadTinyImages.m

% load in first 10 images from noun 'dog';
q = randperm(79302017);
img = read_tiny_big_binary('dog',q(1:10));
% function sorts indices internally for speed

% load in images for different nouns
img = read_tiny_big_binary({'dog','cat','mouse','pig'},{[1:5],[1:2:10],[8 13],[4:-1:1]});

COCO

发表于 2018-04-27

提供者：刘唯

简介

COCO数据集由微软赞助，其对于图像的标注信息不仅有类别、位置信息，还有对图像的语义文本描述，COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展，也几乎成为了图像语义理解算法性能评价的“标准”数据集。

#地址
http://mscoco.org/

特点

COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集，它有如下特点：
1）Object segmentation
2）Recognition in Context
3）Multiple objects per image
4）More than 300,000 images
5）More than 2 Million instances
6）80 object categories
7）5 captions per image
8）Keypoints on 100,000 people

数据集大小

约40Gb

SQL数据库

发表于 2018-04-27

提供者：刘唯

简介

SQL是Structured Query Language(结构化查询语言)的缩写。SQL是专为数据库而建立的操作命令集，是一种功能齐全的数据库语言。在使用它时，只需要发出“做什么”的命令，“怎么做”是不用使用者考虑的。SQL功能强大、简单易学、使用方便，已经成为了数据库操作的基础，并且现在几乎所有的数据库均支持SQL。

操作

1.数据定义：这一部分又称为“SQL DDL”，定义数据库的逻辑结构，包括定义数据库、基本表、视图和索引4部分。
2.数据操纵：这一部分又称为“SQL DML”，其中包括数据查询和数据更新两大类操作，其中数据更新又包括插入、删除和更新三种操作。
3.数据控制：对用户访问数据的控制有基本表和视图的授权、完整性规则的描述，事务控制语句等。
4.嵌入式SQL语言的使用规定：规定SQL语句在宿主语言的程序中使用的规则。

数据定义

SQL数据定义功能包括定义数据库、基本表、索引和视图。
首先，让我们了解一下SQL所提供的基本数据类型：(如^00100009b^)
1.数据库的建立与删除
(1)建立数据库：数据库是一个包括了多个基本表的数据集，其语句格式为：
CREATE DATABASE <数据库名> 〔其它参数〕
其中，<数据库名>在系统中必须是唯一的，不能重复，不然将导致数据存取失误。〔其它参数〕因具体数据库实现系统不同而异。
例：要建立项目管理数据库(xmmanage)，其语句应为：
CREATE DATABASE xmmanage
(2)数据库的删除：将数据库及其全部内容从系统中删除。
其语句格式为：DROP DATABASE <数据库名>
例：删除项目管理数据库(xmmanage)，其语句应为： DROP DATABASE xmmanage
2.基本表的定义及变更
本身独立存在的表称为基本表，在SQL语言中一个关系唯一对应一个基本表。基本表的定义指建立基本关系模式，而变更则是指对数据库中已存在的基本表进行删除与修改。
数据查询
SQL是一种查询功能很强的语言，只要是数据库存在的数据，总能通过适当的方法将它从数据库中查找出来。SQL中的查询语句只有一个：SELECT，它可与其它语句配合完成所有的查询功能。SELECT语句的完整语法，可以有6个子句。完整的语法如下：
　　SELECT 目标表的列名或列表达式集合
　　FROM 基本表或(和)视图集合
　　〔WHERE条件表达式〕
　　〔GROUP BY列名集合
　　〔HAVING组条件表达式〕〕
　　〔ORDER BY列名〔集合〕…〕
简单查询,使用TOP子句
查询结果排序order by
带条件的查询where,使用算术表达式，使用逻辑表达式，使用between关键字，使用in关键字，
模糊查询like [4]
整个语句的语义如下：从FROM子句中列出的表中，选择满足WHERE子句中给出的条件表达式的元组，然后按GROUPBY子句(分组子句)中指定列的值分组，再提取满足HAVING子句中组条件表达式的那些组，按SELECT子句给出的列名或列表达式求值输出。ORDER子句(排序子句)是对输出的目标表进行重新排序，并可附加说明ASC(升序)或DESC(降序)排列。
　　在WHERE子句中的条件表达式F中可出现下列操作符和运算函数：
　　算术比较运算符：<，<=，>，>=，=，<>。
　　逻辑运算符：AND，OR，NOT。
　　集合运算符：UNION(并)，INTERSECT(交)，EXCEPT(差)。
　　集合成员资格运算符：IN，NOT IN
　　谓词：EXISTS(存在量词)，ALL，SOME，UNIQUE。
　　聚合函数：AVG(平均值)，MIN(最小值)，MAX(最大值)，SUM(和)，COUNT(计数)。
　　F中运算对象还可以是另一个SELECT语句，即SELECT语句可以嵌套。
　　上面只是列出了WHERE子句中可出现的几种主要操作，由于WHERE子句中的条件表达式可以很复杂，因此SELECT句型能表达的语义远比其数学原形要复杂得多。
　　下面，我们以上面所建立的三个基本表为例，演示一下SELECT的应用：
　　1.无条件查询
　　例：找出所有学生的的选课情况
　　SELECT st_no，su_no
　　FROM score
　　例：找出所有学生的情况
　　SELECT
　　FROM student
　　“”为通配符，表示查找FROM中所指出关系的所有属性的值。
　　2.条件查询
　　条件查询即带有WHERE子句的查询，所要查询的对象必须满足WHERE子句给出的条件。
　　例：找出任何一门课成绩在70以上的学生情况、课号及分数
　　SELECT UNIQUE student.st_class，student.st_no，student.st_name，student.st_sex，student.st_age，score.su_no，score.score
　　FROM student，score
　　WHERE score.score>=70 AND score.stno=student,st_no
　　这里使用UNIQUE是不从查询结果集中去掉重复行，如果使用DISTINCT则会去掉重复行。另外逻辑运算符的优先顺序为NOT→AND→OR。
　　例：找出课程号为c02的，考试成绩不及格的学生
　　SELECT st_no
　　FROM score
　　WHERE su_no=‘c02’AND score<60
　　3.排序查询
　　排序查询是指将查询结果按指定属性的升序(ASC)或降序(DESC)排列，由ORDER BY子句指明。
　　例：查找不及格的课程，并将结果按课程号从大到小排列
　　SELECT UNIQUE su_no
　　FROM score
　　WHERE score<60 　　order="" by="" su_no="" desc="" 　　4.嵌套查询="" 　　嵌套查询是指where子句中又包含select子句，它用于较复杂的跨多个基本表查询的情况。="" 　　例：查找课程编号为c03且课程成绩在80分以上的学生的学号、姓名="" 　　select="" st_no，st_name="" 　　from="" student="" 　　where="" stno="" in="" (select="" st_no="" score="" and="">80 )
　　这里需要明确的是：当查询涉及多个基本表时用嵌套查询逐次求解层次分明，具有结构程序设计特点。在嵌套查询中，IN是常用到的谓词。若用户能确切知道内层查询返回的是单值，那么也可用算术比较运算符表示用户的要求。
　　5.计算查询
　　计算查询是指通过系统提供的特定函数(聚合函数)在语句中的直接使用而获得某些只有经过计算才能得到的结果。常用的函数有：
　　COUNT() 计算元组的个数
　　COUNT(列名) 对某一列中的值计算个数
　　SUM(列名) 求某一列值的总和(此列值是数值型)
　　AVG(列名) 求某一列值的平均值(此列值是数值型)
　　MAX(列名) 求某一列值中的最大值
　　MIN(列名) 求某一列值中的最小值
　　例：求男学生的总人数和平均年龄
　　SELECT COUNT()，AVG(st_age)
　　FROM student
　　WHERE st_sex=‘男’
　　例：统计选修了课程的学生的人数
　　SELECT COUNT(DISTINCT st_no)
　　FROM score
　　注意：这里一定要加入DISTINCT，因为有的学生可能选修了多门课程，但统计时只能按1人统计，所以要使用DISTINCT进行过滤。

数据更新

数据更新包括数据插入、删除和修改操作。它们分别由INSERT语句，DELETE语句及UPDATE语句完成。这些操作都可在任何基本表上进行，但在视图上有所限制。其中，当视图是由单个基本表导出时，可进行插入和修改操作，但不能进行删除操作；当视图是从多个基本表中导出时，上述三种操作都不能进行。
　　1.数据插入
　　将数据插入SQL的基本表有两种方式：一种是单元组的插入，另一种是多元组的插入。
　　单元组的插入：向基本表score中插入一个成绩元组(100002，c02，95)，可使用以下语句：
　　INSERT INTO score(st_no，su_no，score) VALUES(‘100002’，‘c02’，95)
　　由此，可以给出单元组的插入语句格式：
　　INSERT INTO表名(列名1〔，列名2〕…) VALUES(列值1〔，列值2〕…)
　　其中，列名序列为要插入值的列名集合，列值序列为要插入的对应值。若插入的是一个表的全部列值，则列名可以省略不写如上面的(st_no，su_no，score)可以省去；若插入的是表的部分列值，则必须列出相应列名，此时，该关系中未列出的列名取空值。
　　多元组的插入：这是一种把SELECT语句查询结果插入到某个已知的基本表中的方法。
　　例如：需要在表score中求出每个学生的平均成绩，并保留在某个表中。此时可以先创建一个新的基本表stu_avggrade，再用INSERT语句把表score中求得的每一个学生的平均成绩(用SELECT求得)插入至stu_avggrade中。
　　CREATE TABLE stu_avggrade
　　(st_no CHAR(10) NOT NULL，//定义列st_no学号，类型为10位定长字符串，非空
　　age_grade SMALLINT NOT NULL )// 定义列age_grade平均分，类型为短整形，非空
　　INSERT INTO stu_avggrade(st_no，age_grade)
　　SELECT st_no，AVG(score)
　　FROM score
　　GROUP BY st_no //因为要求每一个学生所有课程的平均成绩，必须按学号分组进行计算。
　　2.数据删除
　　SQL的删除操作是指从基本表中删除满足WHERE<条件表达式>的记录。如果没有WHERE子句，则删除表中全部记录，但表结构依然存在。其语句格式为：
　　DELETE FROM表名〔WHERE 条件表达式〕
　　下面举例说明：
　　单元组的删除：把学号为100002的学生从表student中删除，可用以下语句：
　　DELETE FROM student
　　WHERE st_no=‘100002’//因为学号为100002的学生在表student中只有一个，所以为单元组的删除
　　多元组的删除：学号为100002的成绩从表score中删除，可用以下语句：
　　DELETE FROM score
　　WHERE st_no=‘100002’//由于学号为100002的元组在表score中可能有多个，所以为多元组删除
　　带有子查询的删除操作：删除所有不及格的学生记录，可用以下语句
　　DELETE FROM student
　　WHERE st_no IN
　　(SELETE st_no
　　FROM score
　　WHERE score<60)
　　3.数据修改
　　修改语句是按SET子句中的表达式，在指定表中修改满足条件表达式的记录的相应列值。其语句格式如下：
　　UPDATE 表名 SET 列名=列改变值〔WHERE 条件表达式〕
　　例：把c02的课程名改为英语，可以用下列语句：
　　UPDATE subject
　　SET su_subject=‘英语’
　　WHERE su_no=‘c02’
　　例：将课程成绩达到70分的学生成绩，再提高10%
　　UPDATE score
　　SET score=1.1*score
　　WHERE score>=70
　　SQL的删除语句和修改语句中的WHERE子句用法与SELECT中WHERE子句用法相同。数据的删除和修改操作，实际上要先做SELECT查询操作，然后再把找到的元组删除或修改。

数据控制

由于数据库管理系统是一个多用户系统，为了控制用户对数据的存取权利，保持数据的共享及完全性，SQL语言提供了一系列的数据控制功能。其中，主要包括安全性控制、完整性控制、事务控制和并发控制。
　　1.安全性控制
　　数据的安全性是指保护数据库，以防非法使用造成数据泄露和破坏。保证数据安全性的主要方法是通过对数据库存取权力的控制来防止非法使用数据库中的数据。即限定不同用户操作不同的数据对象的权限。
　　存取权控制包括权力的授予、检查和撤消。权力授予和撤消命令由数据库管理员或特定应用人员使用。系统在对数据库操作前，先核实相应用户是否有权在相应数据上进行所要求的操作。
　　(1)权力授予：权力授有数据库管理员专用的授权和用户可用的授权两种形式。数据库管理员专用授权命令格式如下：
　　|CONNECT |
　　GRANT|RESOURCE|TO 用户名〔IDENTIFED BY 口令〕
　　|DBA |
　　其中，CONNECT表示数据库管理员允许指定的用户具有连接到数据库的权力，这种授权是针对新用户；RESOURCE表示允许用户建立自己的新关系模式，用户获得CONNECT权力后，必须获得RESOURCE权力才能创建自己的新表；DBA表示数据库管理员将自己的特权授予指定的用户。若要同时授予某用户上述三种授权中的多种权力，则必须通过三个相应的GRANT命令指定。
　　另外，具有CONNECT和RESOURCE授权的用户可以建立自己的表，并在自己建立的表和视图上具有查询、插入、修改和删除的权力。但通常不能使用其他用户的关系，除非能获得其他用户转授给他的相应权力。
　　例：若允许用户SSE连接到数据库并可以建立他自己的关系，则可通过如下命令授予权力：
　　GRANT CONNECT TO SSE IDENTIFIED BY BD1928
　　GRANT RESOURCE TO SSE
　　用户可用的授权是指用户将自己拥有的部分或全部权力转授给其他用户的命令形式，其命令格式如下：
　　|SELECT |
　　|INSERT |
　　|DELETE |
　　GRANT|UPDATE(列名1[，列名2]…)|ON|表名 |TO|用户名|〔WITH GRANT OPTION〕
　　|ALTER | |视图名| |PUBLIC|
　　|NDEX |
　　|ALL |
　　若对某一用户同时授予多种操作权力，则操作命令符号可用“，”相隔。
　　PUBLIC 表示将权力授予数据库的所有用户，使用时要注意：
　　任选项WITH GRANT OPTION表示接到授权的用户，具有将其所得到的同时权力再转授给其他用户权力。
　　例：如果将表student的查询权授予所有用户，可使用以下命令：
　　GRANT SELECT ON student TO PUBLIC
　　例：若将表subject的插入及修改权力授予用户SSE并使得他具有将这种权力转授他人的权力，则可使用以下命令：
　　GRANT INSERT，UPDATE(su_subject) ON subject TO SSE WITH GRANT OPTION
　　这里，UPDATE后面跟su_subject是指出其所能修改的列。
　　(2)权力回收：权力回收是指回收指定用户原已授予的某些权力。与权力授予命令相匹配，权力回收也有数据库管理员专用和用户可用的两种形式。
　　DBA专用的权力回收命令格式为：
　　|CONNECT |
　　REVOKE|RESOURCE|FROM用户名
　　|DBA |
　　用户可用的权力回收命令格式为：
　　|SELECT |
　　|INSERT |
　　|DELETE |
　　REVOKE|UPDATE(列名1〔，列名2〕…) |ON|表名 |FROM |用户名|
　　|ALTER | |视图名| |PUBLIC|
　　|INDEX |
　　|ALL |
　　例：回收用户SSE的DBA权力：
　　REVOKE DBA FROM SSE
　　2.完整性控制
　　数据库的完整性是指数据的正确性和相容性，这是数据库理论中的重要概念。完整性控制的主要目的是防止语义上不正确的数据进入数据库。关系系统中的完整性约束条件包括实体完整性、参照完整性和用户定义完整性。而完整性约束条件的定义主要是通过CREATE TABLE语句中的〔CHECK〕子句来完成。另外，还有一些辅助命令可以进行数据完整性保护。如UNIQUE和NOT NULL，前者用于防止重复值进入数据库，后者用于防止空值。
　　3.事务控制
　　事务是并发控制的基本单位，也是恢复的基本单位。在SQL中支持事务的概念。所谓事务，是用户定义的一个操作序列(集合)，这些操作要么都做，要么一个都不做，是一个不可分割的整体。一个事务通常以BEGIN TRANSACTION开始，以COMMIT或ROLLBACK结束。
　　SQL提供了事务提交和事务撤消两种命令：
　　(1)事务提交：事务提交的命令为：
　　COMMIT 〔WORK〕
　　事务提交标志着对数据库的某种应用操作成功地完成，所有对数据库的操作都必须作为事务提交给系统时才有效。事务一经提交就不能撤消。
　　(2)事务撤消：事务撤消的命令是：
　　ROLLBACK 〔WORK〕
　　事务撤消标志着相应事务对数据库操作失败，因而要撤消对数据库的改变，即要“回滚”到相应事务开始时的状态。
　　当系统非正常结束时(如掉电、系统死机)，将自动执行ROLLBACK命令

UCI数据库

发表于 2018-04-27

提供者：刘唯

简介

UCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库，这个数据库目前共有335个数据集，其数目还在不断增加，UCI数据集是一个常用的标准测试数据集。
UCI数据可以使用matlab的dlmread（或textread或者利用matlab的导入数据）读取，不过，需要先将不是数字的类别用数字，比如1/2/3等替换，否则读入不了数值，当字符了。
每个数据文件（.data）包含以“属性-值”对形式描述的很多个体样本的记录。对应的.info文件包含的大量的文档资料。（有些文件generate databases；他们不包含*.data文件。）作为数据集和领域知识的补充，在utilities目录里包含了一些在使用这一数据集时的有用资料。

地址

http://www.ics.uci.edu/~mlearn/MLRepository.html

使用说明

下面以UCI中IRIS为例介绍一下数据集：
[1]
ucidata\iris中有三个文件：
Index
iris.data
iris.names
index为文件夹目录，列出了本文件夹里的所有文件，如iris中index的内容如下：
Index of iris
18 Mar 1996 105 Index
08 Mar 1993 4551 iris.data
30 May 1989 2604 iris.names
iris.data为iris数据文件，内容如下：
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
……
7.0,3.2,4.7,1.4,Iris-versicolor
6.9,3.1,4.9,1.5,Iris-versicolor
……
6.3,3.3,6.0,2.5,Iris-virginica
6.4,3.2,4.5,1.5,Iris-versicolor
5.8,2.7,5.1,1.9,Iris-virginica
7.1,3.0,5.9,2.1,Iris-virginica
……
如上，属性直接以逗号隔开，中间没有空格（5.1,3.5,1.4,0.2,），最后一列为本行属性对应的值，即决策属性Iris-setosa
iris.names介绍了irir数据的一些相关信息，如数据标题、数据来源、以前使用情况、最近信息、实例数目、实例的属性等，如下所示部分：
……

Attribute Information:
sepal length in cm
sepal width in cm
petal length in cm
petal width in cm
class:
– Iris Setosa
– Iris Versicolour
– Iris Virginica
……

简介

下载地址

使用方法

简介

地址

使用方法

简介

在线地址

工具包下载地址

使用方法

简介

主要功能与内容

CIFAR-10数据集

CIFAR-100数据集

使用说明

数据及下载

数据集布局

相关资料

简介

主要内容与使用

数据集介绍

本地特征提取

训练 & inference

简介

主要内容与使用教程

下载MNIST数据集

MNIST结构分析

读取图像数据

相关资源

简介

主要内容与使用

数据集详情

文件

使用说明

简介

特点

数据集大小

相关论文

简介

操作

数据定义

数据更新

数据控制

相关论文

简介

地址

使用说明

相关论文