数据挖掘分类技术

标签: 数据挖掘 分类 技术 | 发表时间:2013-04-03 13:29 | 作者:broadview2006
出处:http://blog.csdn.net

数据挖掘分类技术

从分类问题的提出至今,已经衍生出了很多具体的分类技术。下面主要简单介绍四种最常用的分类技术,不过因为原理和具体的算法实现及优化不是本书的重点,所以我们尽量用应用人员能够理解的语言来表述这些技术。而且我们会在第4章再次给读者讲述分类算法和相关原理。

在我们学习这些算法之前必须要清楚一点,分类算法不会百分百准确。每个算法在测试集上的运行都会有一个准确率的指标。用不同的算法做成的分类器(Classifier)在不同的数据集上也会有不同的表现。

KNN,K最近邻算法

K最近邻(k-Nearest Neighbor,kNN)分类算法可以说是整个数据挖掘分类技术中最简单的方法。所谓K最近邻,就是k个最近的邻居,说的是每个样本都可以用它最接近的K个邻居来代表。

我们用一个简单的例子来说明kNN算法的概念。如果您住在一个市中心的住宅内,周围若干个小区的同类大小房子售价都在280万到300万之间,那么我们可以把你的房子和它的近邻们归类到一起,估计也可以售280万到300万之间。同样,您的朋友住在郊区,他周围的同类房子售价都在110万到120万之间,那么他的房子和近邻的同类房子归类之后,售价也在110万到120万之间。

KNN算法的核心思想是如果一个样本在特征空间中的K个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时,只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近样本,而不是靠判别类域的方法来确定所属类别,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。

决策树(Decision Tree)

如果说KNN是最简单的方法,那决策树应该是最直观最容易理解的分类算法。最简单的决策树的形式是If-Then(如果-就)式的决策方式的树形分叉。

比如下面这样一棵决策树,根据样本的相貌和财富两个属性把所有样本分成“高富帅”、“帅哥”、“高富”和“屌丝”四类。

If(obj.相貌=="帅")then

    {

        If(obj.财富>=1000000000)then

            {

            print(obj.Name + "高富帅");

            }

        else

            {

            print(obj.Name + "是帅哥");

            }

    }

else

    {

        If(obj.财富>=1000000000)then

            {

            print(obj.Name + "是高富");

            }

        else

            {

            print(obj.Name + "是屌丝");

            }

    }

决策树上的每个节点要么是一个新的决策节点,要么就是一个代表分类的叶子,而每一个分支则代表一个测试的输出。决策节点上做的是对属性的判断,而所有的叶子节点就是一个类别。决策树要解决的问题就是用哪些属性充当这棵树的各个节点的问题,而其中最关键的是根节点(Root Node),在它的上面没有其他节点,其他所有的属性都是它的后续节点。在上面的例子中,(obj.相貌==“帅”)就是根节点,两个(obj.财富>=1000000000)是根节点下一层的两个决策节点,四个print标志着四个叶子节点,各自对应一个类别。

所有的对象在进入决策树之后根据各自的“相貌”和“财富”属性都会被归到四个分类中的某一类。

大多数分类算法(如下面要提的神经网络、支持向量机等)都是一种类似于黑盒子式的输出结果,你无法搞清楚具体的分类方式,而决策树让人一目了然,十分方便。决策树按分裂准则的不同可分为基于信息论的方法和最小GINI指标(Gini Index)方法等。

神经网络(Neural Net)

在KNN算法和决策树算法之后,我们来看一下神经网络。

神经网络就像是一个爱学习的孩子,你教他的知识他不会忘记,而且会学以致用。我们把学习集(Learning Set)中的每个输入加到神经网络中,并告诉神经网络输出应该是什么分类。在全部学习集都运行完成之后,神经网络就根据这些例子总结出他自己的想法,到底他是怎么归纳的就是一个黑盒了。之后我们就可以把测试集(Testing Set)中的测试例子用神经网络来分别作测试,如果测试通过(比如80%或90%的正确率),那么神经网络就构建成功了。我们之后就可以用这个神经网络来判断事务的分类。

神经网络是通过对人脑的基本单元——神经元的建模和连接,探索模拟人脑神经系统功能的模型,并研制一种具有学习、联想、记忆和模式识别等智能信息处理功能的人工系统。神经网络的一个重要特性是它能够从环境中学习,并把学习的结果分别存储于网络的突触连接中。神经网络的学习是一个过程,在其所处环境的激励下,相继给网络输入一些样本模式,并按照一定的规则(学习算法)调整网络各层的权值矩阵,待网络各层权值都收敛到一定值,学习过程结束。然后我们就可以用生成的神经网络来对真实数据做分类。

支持向量机SVM(Support Vector Machine)

和上面三种算法相比,支持向量机的说法可能会有一些抽象。我们可以这样理解,尽量把样本中的从更高的维度看起来在一起的样本合在一起,比如在一维(直线)空间里的样本从二维平面上可以把它们分成不同类别,而在二维平面上分散的样本如果我们从第三维空间上来看就可以对它们做分类。

支持向量机算法的目的是找到一个最优超平面,使分类间隔最大。最优超平面就是要求分类面不但能将两类正确分开,而且使分类间隔最大。在两类样本中离分类面最近且位于平行于最优超平面的超平面上的点就是 支持向量,为找到最优超平面,只要找到所有的支持向量即可。对于非线性支持向量机,通常做法是把线性不可分转化成线性可分,通过一个非线性映射将低维输入空间中的数据特征映射到高维线性特征空间中,在高维空间中求线性最优分类超平面。

支持向量机算法是我们在做数据挖掘应用时很看重的一个算法,而原因是该算法自问世以来就被认为是效果最好的分类算法之一。

本文节选自《New Internet:大数据挖掘》

谭磊 著

电子工业出版社出版

 

作者:broadview2006 发表于2013-4-3 13:29:43 原文链接
阅读:79 评论:0 查看评论

相关 [数据挖掘 分类 技术] 推荐:

数据挖掘分类技术

- - CSDN博客云计算推荐文章
从分类问题的提出至今,已经衍生出了很多具体的分类技术. 下面主要简单介绍四种最常用的分类技术,不过因为原理和具体的算法实现及优化不是本书的重点,所以我们尽量用应用人员能够理解的语言来表述这些技术. 而且我们会在第4章再次给读者讲述分类算法和相关原理. 在我们学习这些算法之前必须要清楚一点,分类算法不会百分百准确.

数据挖掘 - 分类算法比较

- - IBM developerWorks 中国 : 文档库
随着计算能力、存储、网络的高速发展,人类积累的数据量正以指数速度增长. 对于这些数据,人们迫切希望从中提取出隐藏其中的有用信息,更需要发现更深层次的规律,对决策,商务应用提供更有效的支持. 为了满足这种需求,数据挖掘技术的得到了长足的发展,而分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多.

数据挖掘学习笔记:分类、统计学习

- - 四火的唠叨
ICDM(国际数据挖掘大会)2006年从18种提名的数据挖掘算法中投票选出了十大算法. 这18中提名数据挖掘算法分属10大数据挖掘主题,蓝色部分即为最终选出的十大算法:. 分类(Classification). 统计学习(Statistical Learning). 关联分析(Association Analysis).

浅析十三种常用的数据挖掘的技术

- - IT技术博客大学习
   数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程. 数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可以分为两大类:预测性(Predictive)模式和描述性(Descriptive)模式. 在应用中往往根据模式的实际作用细分为以下几种:分类,估值,预测,相关性分析,序列,时间序列,描述和可视化等.

NLPIR技术助力中文智能数据挖掘

- - 互联网 - ITeye博客
  随着数据技术的飞速发展以及广泛应用,许多企业和部门建立了自身的数据管理系统,经过长年努力,已经积累了越来越多的数据. 于是,人们开始渴望通过对这些庞大的数据分析得到更多的有助于决策的信息. 虽然,目前的数据系统可以高效率地实现数据的录入、查询、统计等功能,但由于数据量庞大以及数据库系统中分析方法的严重缺乏,使得它无法发现数据中隐藏的相互联系,更无法根据当前和历史的数据去预测未来的发展趋势.

用于数据挖掘的分类算法有哪些,各有何优劣?

- - 知乎每日精选
尝试将quora上的这个回答翻译了下. 如果你的训练集很小,高偏差/低方差的分类器(如朴素贝叶斯)比低偏差/高方差的分类器(如K近邻或Logistic回归)更有优势,因为后者容易过拟合. 但是随着训练集的增大,高偏差的分类器并不能训练出非常准确的模型,所以低偏差/高方差的分类器会胜出(它们有更小的渐近误差).

试论数据挖掘技术在旅游营销中的应用

- - 标点符
目前,中国的旅游企业面临着一个竞争非常激烈的经营环境. 在现有的需求中获得足够的市场份额是每个企业非常关心的问题. 酒店的亏损经营、旅行社的微利经营实际上预示着通过低价竞争获取市场份额的营销策略在中国已经走到了尽头. 在这种状况下,迫切要求我们采取. 一种切实有效的非价格竞争策略. 价格战的根本原因是不能提供差异化的产品和差异化的营销.

数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现(上)

- - CSDN博客推荐文章
本文主要研究基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的设计及实现,数据预处理、贝叶斯算法及KNN算法实现工程源码下载见:. 对newsgroup文档集进行预处理,提取出30095 个特征词. 计算每篇文档中的特征词的TF*IDF值,实现文档向量化,在KNN算法中使用. 用JAVA实现了KNN算法及朴素贝叶斯算法的newsgroup文本分类器.

数据挖掘是神马?

- - 互联网分析
1、数据挖掘需要‘神马样’的流程.  2、哥,有没有详细点的,来个给力的. 4、数据在统计意义上有哪些类型. 9、知道这些工具不知道如何在工作中用呀. 11、还有没有更人性化、智能化的展现. 12、上面这图看起来很给力,背后很复杂吧.  16、转载的留个来源 ,毕竟是我辛苦收集和想出来的,谢谢. 忘记“大数据”,从“中数据”开始.

这就是数据挖掘

- - 互联网分析
当今数据库的容量已经达到上万亿的水平(T)— 1,000,000,000,000个字节. 在这些大量数据的背后隐藏了很多具有决策意义的信息,那么怎么得到这些“知识”呢. 也就是怎样通过一颗颗的树木了解到整个森林的情况. 计 算机科学对这个问题给出的最新回答就是:数据挖掘,在“数据矿山”中找到蕴藏的“知识金块”,帮助企业减少不必要投资的同时提高资金回报.