UCI数据库

提供者:刘唯

简介

UCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库,这个数据库目前共有335个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。
UCI数据可以使用matlab的dlmread(或textread或者利用matlab的导入数据)读取,不过,需要先将不是数字的类别用数字,比如1/2/3等替换,否则读入不了数值,当字符了。
每个数据文件(.data)包含以“属性-值”对形式描述的很多个体样本的记录。对应的.info文件包含的大量的文档资料。(有些文件generate databases;他们不包含*.data文件。)作为数据集和领域知识的补充,在utilities目录里包含了一些在使用这一数据集时的有用资料。

地址

http://www.ics.uci.edu/~mlearn/MLRepository.html

使用说明

下面以UCI中IRIS为例介绍一下数据集:
[1]
ucidata\iris中有三个文件:
Index
iris.data
iris.names
index为文件夹目录,列出了本文件夹里的所有文件,如iris中index的内容如下:
Index of iris
18 Mar 1996 105 Index
08 Mar 1993 4551 iris.data
30 May 1989 2604 iris.names
iris.data为iris数据文件,内容如下:
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
……
7.0,3.2,4.7,1.4,Iris-versicolor
6.9,3.1,4.9,1.5,Iris-versicolor
……
6.3,3.3,6.0,2.5,Iris-virginica
6.4,3.2,4.5,1.5,Iris-versicolor
5.8,2.7,5.1,1.9,Iris-virginica
7.1,3.0,5.9,2.1,Iris-virginica
……
如上,属性直接以逗号隔开,中间没有空格(5.1,3.5,1.4,0.2,),最后一列为本行属性对应的值,即决策属性Iris-setosa
iris.names介绍了irir数据的一些相关信息,如数据标题、数据来源、以前使用情况、最近信息、实例数目、实例的属性等,如下所示部分:
……

  1. Attribute Information:
  2. sepal length in cm
  3. sepal width in cm
  4. petal length in cm
  5. petal width in cm
  6. class:
    – Iris Setosa
    – Iris Versicolour
    – Iris Virginica
    ……

相关论文

[1]Juntao Li. Binary Classification With Noise via Fuzzy Weighted Least Squares Twin Support Vector Machine[A]. 东北大学、IEEE新加坡工业电子分会.第27届中国控制与决策会议论文集[C].东北大学、IEEE新加坡工业电子分会:,2015:5.
[2]OUYANG Hao. A rough fuzzy kernel clustering algorithm[A]. IEEE Beijing Section.Proceedings of 2015 IEEE International Conference on Communication Problem-Solving(ICCP)[C].IEEE Beijing Section:,2015:5.
[3]陈程立诏. 神经网络集成算法样本取样优化研究[D].北京化工大学,2012.
[4]朱昌明. 基于矩阵化特征表示和Ho-Kashyap算法的分类器设计方法研究[D].华东理工大学,2015.
[5]Ruochen Liu, Ping Zhang, Licheng Jiao Key Laboratory of Intelligent Perception and Image Understanding of Ministry of Education of China, Institute of Intelligent Information Processing, Xidian University, Xi’an, 710071. Clonal Selection Classification Algorithm for High-Dimensional Data[A]. Chinese Association for System Simulation(CASS)、IEEE SMCS Systems Biology Technical Committee.Final Program and Book of Abstracts of the 2010 International Conference on Life System Modeling and Simulation & 2010 International Conference on Intelligent Computing for Sustainable Energy and Environment[C].Chinese Association for System Simulation(CASS)、IEEE SMCS Systems Biology Technical Committee:,2010:8.
[6]Fei Zang School of Science and the State Key Laboratory for Manufacturing Systems Engineering Xi’an Jiaotong University Xi’an, China Jiang-she Zhang School of Science and the State Key Laboratory for Manufacturing Systems Engineering Xi’an Jiaotong University Xi’an, China. Softmax Discriminant Classifier[A]. Shanghai University、Nanjing University of Science and Technology、Nanjing University.Proceedings of the Third International Conference on Multimedia Information Networking and Security(MINES 2011)[C].Shanghai University、Nanjing University of Science and Technology、Nanjing University:,2011:4.