WEKA学习总结

标签: weka 习总 | 发表时间:2013-05-02 14:35 | 作者:lantian0802
出处:http://blog.csdn.net

1.      Weka处理的数据表格中,一个横行称为一个实例(Instance),竖行代表一个属性(Arrtibute),数据表格称为一个数据集,在weka看来,呈现了属性之间的一种关系(Relation)

2.      Weka存储数据的格式是ARFF(Attribute-RelationFile Format)文件,这是一种ASCII文本文件。

3.      Weka的ARFF文件可以分为两部分。第一部分给出了头信息(Head information),包括了对关系的声明和对属性的声明。第二部分给出了数据信息(Data information),即数据集中给出的数据。从@Data标记开始,后面的就是数据信息了。

4.      Weka作为数据挖掘,面临的第一个问题往往是我们的数据不是ARFF格式的。幸好,WEKA还提供了对CSV文件的支持,而这种格式是被许多其他软件所支持的。此外,WEKA还提供了通过JDBC访问数据库的功能。

5.      需要注意的是,matlab给出的csv文件往往没有属性名(Excel 给出的也可能没有)。而WEKA必须从CSV文件的第一行读取属性名,否则就会把第一行的各属性值读成变量名。因此我们对于matlab给出的csv文件需要用UltraEdit打开,手工添加一行属性名。

6.      Weka提供了命令将CSV文件转换成arff文件。

7.      Weka GUI根据不同功能分为8个界面:

(1)    区域1的几个选项卡用来切换不同的挖掘任务面板。

(2)    区域2是一些常用按钮。包括打开数据,保存及编辑功能。

(3)    选择某个Filter,可以实现筛选数据或者对数据进行某种变换。

(4)    区域4展示了数据集的一些基本情况。

(5)    列出了数据集的所有属性。

(6)    区域6中有关于这个属性的摘要,注意对于数值属性和分类属性,摘要的方式是不一样的。

(7)    区域7中是区域5属性的直方图。

(8)    区域8是状态栏,可以查看Log义判断是否有错。右边的weka鸟在动的话说明weka正在执行挖掘任务。右键点击状态栏可以执行java内存垃圾回收。

8.      通常对于数据挖掘任务来说,ID这样的信息是无用的。

9.      Weka把分类(Classification)和回归(Regression)都放在“Classify”选项卡中。

10.  在weka中,待预测的目标(输出)被称为Class属性,这应该是来自分类任务的“类”。一般的,若Class属性是分类型时我们的任务才叫分类,Class属性是数值型时我们的任务叫回归。

11.  所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量和自变量之间的回归关系函数表达式(称回归方程)。

12.  在回归分析中,又依据描述自变量和因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性分析。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。

13.  一元线性回归是指事物发展的自变量和因变量之间是单因素的简单线性关系,它的模型可以表示为: y=a+bx

14.  多元线性回归是指一个因变量和多个自变量之间的线性关系,模型一般形式为:

Y=a+b1x1+b2x2+…+bnxn

15.  为了保证生成的模型的准确性而不至于出现拟合的现象,我们有必要采用10折交叉验证来选择和评估模型。

16.  10 折交叉验证:英文名叫做10-fold corss –validation,用来测试算法的准确性。是常用的测试方法。将数据集分成10份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得到相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精确读的估计,一般还需要进行多次10折交叉验证。

17.  数据挖掘中分类与聚类最本质的区别:

简单的说:分类是“监督学习”,事先知道有那些类别可以分。聚类—是“无监督学习”,事先不知道要分成哪些类。

数据分类是指分析数据库中的一组对象,找出去共同属性。然后根据分类模型,把他们划分为不同的类别。分类数据首先根据训练数据建立分类模型,然后根据这些分类描述分类数据中的测试数据或产生更恰当的描述。

聚类是指数据库中的数据可以划分为一些列有意义的子集,即类。在同一类别中,个体之间的距离较小,而不同类别上的个体之间的距离偏大。聚类分析通常称为“无监督的学习”

18.  在进行聚类运算时,设置seed是设置一个随机种子,依此产生一个随机数,用来得到K均值算法中第一次给出的K个簇中心的位置。

作者:lantian0802 发表于2013-5-2 14:35:55 原文链接
阅读:85 评论:0 查看评论

相关 [weka 习总] 推荐:

WEKA学习总结

- - CSDN博客互联网推荐文章
1.      Weka处理的数据表格中,一个横行称为一个实例(Instance),竖行代表一个属性(Arrtibute),数据表格称为一个数据集,在weka看来,呈现了属性之间的一种关系(Relation). 2.      Weka存储数据的格式是ARFF(Attribute-RelationFile Format)文件,这是一种ASCII文本文件.

使用Weka进行数据挖掘

- - 搜索研发部官方博客
数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西. 诚然,如果做算法实现甚至算法优化,确实需要很多背景知识. 但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西. 他们的精力,集中在特征提取,算法选择和参数调优上. 那么,一个可以方便地提供这些功能的工具,便是十分必要的了. 而weka,便是数据挖掘工具中的佼佼者.

weka特征预处理的一些tip

- - BlogJava-首页技术区
首先,提供两个地址,这里包含了全部的内容原文:. weka可以以目录形式读入数据. 然后再简单说一下weka在做文本特征内容处理时候需要注意的东西:. 声明一点,在weka的gui下是没法使用这个功能的:以目录形式读入数据. 首先,把要处理的数据写入到这样的目录结构下:. 然后在源码包下,命令行执行 java weka.core.converters.TextDirectoryLoader -dir text_example > text_example.arff.

[转] 有关weka数据格式

- - 非技术 - ITeye博客
摘自:http://www.cnblogs.com/xiaoka/archive/2012/03/22/2412421.html. Weka简介 (http://www.china-pub.com/computers/common/info.asp?id=29304).       WEKA的全名是怀卡托智能分析环境(Walkato Environment for Knowledge Analysis),WEKA的开发者来自新西兰,而新西兰有一种鸟名字叫做weka,便是weka图标上的那只.

数据挖掘开源软件:WEKA基础操作

- - CSDN博客互联网推荐文章
数据挖掘开源软件:WEKA基础教程. 本文档部分来自于网络,随着自己的深入学习,讲不断的修订和完善. 第一节   Weka简介:. Weka是由新西兰怀卡托大学开发的智能分析系统(Waikato Environment for Knowledge Analysis) . 以外的地方,Weka通常按谐音念成Mecca,是一种现今仅存活于新西兰岛的,健壮的棕色鸟,  非常害羞,好奇心很强,但不会飞 .

Weka聚类算法的两个实现算法

- - 行业应用 - ITeye博客
在这里将使用Weka自带的K-means以及EM算法对同一份数据进行聚类. 目前使用的是自带的数据集. 我也不太清楚这样聚类的效果如何 sigh.... K-Means K-均值算法. // 目前没有使用到,但是在3.7.10的版本之中可以指定距离算法. // 初始化聚类器 (加载算法). 在上面的算法之中,使用的是SimpleKMeans这个类.

[转][转]机器学习工具:scikit-learn/Weka

- - heiyeluren的blog(黑夜路人的开源世界)
开源机器学习工具scikit-learn入门. Scikit-Learn是基于python的机器学习模块,基于BSD开源许可证. 这个项目最早由DavidCournapeau 在2007 年发起的,目前也是由社区自愿者进行维护. Scikit-Learn的官方网站是 http://scikit-learn.org/stable/,在上面可以找到相关的Scikit-Learn的资源,模块下载,文档,例程等等.

Hadoop学习总结

- - 开源软件 - ITeye博客
  一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算. Hadoop框架中最核心设计就是:HDFS和MapReduce,HDFS实现存储,而MapReduce实现原理分析处理,这两部分是hadoop的核心.

iptables 学习总结

- - 小火箭
参考文章: 朱双印 iptables. 主机防火墙:对单个主机进行防护. 网络防火墙:通常处于网络的入口/出口,服务于其背后的局域网. 硬件防火墙:在硬件级别实现部分防火墙功能,另一部分功能基于软件实现,性能高,成本高. 软件防火墙:应用软件处理逻辑运行于通用硬件平台之上的防火墙,性能低,成本低.

实习总结之——MyEverything

- chuang - 博客园-首页原创精华区
在PPTV的实习就快要结束了,现在应该来总结一下. 基于 Kinect SDK 做开发. 研究 Everything. 这篇文章主要来介绍我做的第4件事:研究“Everything”软件的技术并自己实现一个demo——MyEverything,什么是Everything. 点击查看Everything的介绍.