走出数据挖掘的认识误区(Z)

标签: 数据挖掘 | 发表时间:2012-09-15 11:02 | 作者:小蚊子
出处:http://blog.sina.com.cn/xiaowenzi22

作者:SPSS中国 沈鹏

 

    对于普通人来说,数据挖掘可能是一个神秘的过程。没有经验的企业实施数据挖掘项目时,错误的认识往往成为项目成功开展的重要障碍。因此及时矫正这些错误的认识也成为项目实施前一个重要的任务。

 

数据挖掘的所有内容是关于算法
    一谈到算法就会想到通过历史数据建立模型,数据挖掘算法是创建挖掘模型的机制,对产生的最终挖掘输出结果有很大的决定性。随着数据挖掘新技术的层出不穷和商业数据挖掘产品的成熟与完善。对同一商业问题,通常在产品中有多种算法可供选择,而为特定的任务选择正确的算法很有挑战性。
    您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果。而且算法可以进行复合使用,在一个数据挖掘解决方案中可以使用一些算法来探析数据,而使用其他算法基于该数据预测特定结果。例如,可以使用聚类分析算法来识别模式,将数据细分成多少有点相似的组,然后使用分组结果来创建更好的决策数模型。
    也可以在一个解决方案中使用多个算法来执行不同的任务,例如,使用回归树算法来获取财务预测信息,使用基于规则的算法来执行市场篮子分析。
    由此看出在数据挖掘项目中,在明确挖掘目标和了解各种算法特点后,如何正确选择使用算法,得到期望的结果才是关键环节。
    在数据挖掘项目实施的过程中,业界有一个公认的方法论CRISP-DM(Cross Industry Standard Process for Data Ming,跨行业数据挖掘标准流程),从名称上可以看到,此模型的定义比较通用,能够应用于不同的行业解决业务问题。




    CRISP-DM流程模型包括了六个步骤,涵盖了数据挖掘的整个过程,它们是:商业理解、数据理解、数据准备、建立模型、模型评估、模型部署。
    在这六个步骤中,应用数据挖掘算法的过程主要集中在建立模型阶段,很显然算法不是数据挖掘的所有内容。建模所使用的数据准备得如何,很大程度上决定了数据挖掘项目的成败。
    因此,在一个成功的数据挖掘项目中,60%-80%的时间都是集中在商业理解、数据理解、数据准备阶段。此外,在数据挖掘项目中,特别强调数据挖掘算法和实际业务的紧密结合,否则数据挖掘很可能会出现“垃圾进,垃圾出”(garbage in garbage out)的现象。

 

数据挖掘项目中,检验模型的唯一标准是预测精确度
    模型的预测精确度是检验模型好坏的一个重要指标,但不是唯一指标。一个良好的数据挖掘模型,在投入实际应用前,需要经过多方面的评估,从而确定它完全地达到了商业目标。评估数据挖掘模型优劣的指标有许多,比如精确度、LIFT、ROC、Gain图等。
    精确度是最基本和最简单的指标。但是要让用户接受一个模型的结果,仅靠这些评估指标却是不够的,还需要从模型结果的可用性上进一步阐述,即数据挖掘模型到底能带来什么业务上的价值。这实际上也就是数据挖掘模型的可解释性。在实际数据挖掘项目中,模型的可解释性往往比评估指标更为重要。
    在对模型进行评估时,既要参照评估标准,同时也要考虑到商业目标和商业成功的标准。片面的追求预测正确率就会忽视了数据挖掘的初衷。我们不是为了建立一个完美的数学模型而进行挖掘,而是为了解决实际商业问题。所以挖掘产生结果的可解释性与实用性,才是最根本的标准。例如在解决客户流失问题中,预测模型捕捉越多的流失客户,不一定就代表能够协助挽留较多的客户。关键在于预测结果对挽留营销活动的制定有多大的帮助。

 

数据挖掘一定需要数据仓库
    从定义上讲,数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。
    良好的数据源是数据挖掘成功的重要保证,所以说数据挖掘需要有自己的数据集市,因为通常数据仓库主要是为决策支持系统而建立的,数据在ETL过程中会有可能损失一些对数据挖掘有用的信息。
    特别是在数据规约阶段,针对数据集进行匹配,发现重复异常,根据匹配结果进行处理,删除部分记录或者将多个记录合并为一个更完整信息的记录的过程,对数据挖掘来讲很可能是隐含信息丢失的过程。重复的记录对决策支持系统可能没有用处,但对数据挖掘来讲可能是挖掘出隐含模式的重要来源。

 

数据挖掘应由技术专家来完成
    数据挖掘作为利用企业大量数据发现规律规则并在企业经营活动中应用从而产生商业价值的一个商业应用过程,是由多方面的要素构成的。
    其中,非常重要的一部分就是要有高素质的数据挖掘人员,这些人员包括:了解数据的人,例如数据库管理员,对数据的存储位置非常清楚;了解业务的人,能够及时提出问题,并协助分析员把商业问题转化称为数据挖掘问题,理解数据挖掘结果,并能够把数据挖掘结果转化为企业的实际商业行动创造价值;分析人员,需要了解数据挖掘的算法和功能,熟练使用相关数据挖掘软件产品,能够和业务人员一起把商业问题转化为数据挖掘问题并解决数据挖掘问题。
    因此,成功的数据挖掘项目是由业务专家和技术专家共同完成的。优秀的数据挖掘工具应该有利于业务专家也参与到数据挖掘项目中。只有将业务知识融入到数据挖掘项目中,才能使数据挖掘的结果真正为商业应用服务。


需要海量的数据
    在数据挖掘过程中,最初设定的商业目标很容易淹没在海量数据中,在项目进行中,应始终明确需解决的商业问题,确保项目结果的最终完成。如果你只是在没有项目计划的情况下简单的开始分析一堆数据,将会很容易迷失在数据里而且浪费时间。
    不要让项目被大量数据单纯驱动,集中精力在商业目标上。你可能不需要使用系统中的所有数据,仅仅使用和项目相关的数据就可以了。

 

确保数据挖掘项目的成功实施
    纠正了认识的误区,那我们接下来该如何实施呢?前文提到的CRISP-DM方法论是一个很好的方法。
以终为始
    为了能在项目终结时得到期望的ROI,你应该在项目启动前已经确定了如何评估最终的结果的标准(例如:使用什么样的商业考核指标,它们是被如何计算或派生的)。
设定期望值
    确保项目投资者明白数据挖掘不是解决商业问题的魔术棒。数据挖掘是借助计算机技术辅助解决商业问题的一种方法。就像任何商业问题,投资者需要首先提出可解决的问题,然后找寻方案。
    例如你计划为公司市场部做客户细分,那么应该与市场部的同事一起明确什么样的结果是最终希望得到的,例如:“我们使用产品信息和人口统计数据,所以希望得到基于客户的收入、年龄等信息的细分,这样能显示不同层次客户对产品的喜好”。


限定最初的项目范围
    以现实可行的目标和日程表为开始,当你获得成功后,再转向更复杂的项目。例如与其试图立刻提高新客户的获取值,还不是集中精力在小的更实际的目标如对某一区域进行交叉销售,客户保留项目。


确保团队合作
    数据挖掘项目是一个团队工作。数据挖掘需要商业使用者理解实际问题和数据,也需要数据分析家提供分析解决方案,以及数据库管理者提供权限。而他们往往来自不同的部门,有着不同的利益诉求,所以找到可行的合作方式是很重要的。
避免陷入数据垃圾
    在项目进行中,始终明确需要解决的商业问题,确保项目结果的最终完成。如果你只是在没有项目计划的情况下简单的开始分析一堆数据,你将会很容易迷失在数据里而且浪费时间。不要让项目被大量数据单纯驱动,集中精力在商业目标上。你可能不需要使用系统中的所有数据,仅仅使用和项目相关的数据就可以了。你甚至可能会发现现有的数据不能足以解决现实的商业问题。即使海量数据也不能保证你就拥有准确的用于建模的数据.例如,使用最新的信息进行预测客户行为往往比用大量的历史数据准确。


  青春就应该这样绽放   游戏测试:三国时期谁是你最好的兄弟!!   你不得不信的星座秘密

相关 [数据挖掘 认识] 推荐:

走出数据挖掘的认识误区(Z)

- - 小蚊子乐园
    对于普通人来说,数据挖掘可能是一个神秘的过程. 没有经验的企业实施数据挖掘项目时,错误的认识往往成为项目成功开展的重要障碍. 因此及时矫正这些错误的认识也成为项目实施前一个重要的任务. 数据挖掘的所有内容是关于算法.     一谈到算法就会想到通过历史数据建立模型,数据挖掘算法是创建挖掘模型的机制,对产生的最终挖掘输出结果有很大的决定性.

数据挖掘是神马?

- - 互联网分析
1、数据挖掘需要‘神马样’的流程.  2、哥,有没有详细点的,来个给力的. 4、数据在统计意义上有哪些类型. 9、知道这些工具不知道如何在工作中用呀. 11、还有没有更人性化、智能化的展现. 12、上面这图看起来很给力,背后很复杂吧.  16、转载的留个来源 ,毕竟是我辛苦收集和想出来的,谢谢. 忘记“大数据”,从“中数据”开始.

这就是数据挖掘

- - 互联网分析
当今数据库的容量已经达到上万亿的水平(T)— 1,000,000,000,000个字节. 在这些大量数据的背后隐藏了很多具有决策意义的信息,那么怎么得到这些“知识”呢. 也就是怎样通过一颗颗的树木了解到整个森林的情况. 计 算机科学对这个问题给出的最新回答就是:数据挖掘,在“数据矿山”中找到蕴藏的“知识金块”,帮助企业减少不必要投资的同时提高资金回报.

关于数据挖掘

- - 牛国柱
以下内容来自网络,关于数据挖掘的一些最基本的知识. 数据挖掘是对一系列数据进行分析和挖掘的方法的统称,在精准营销领域,最常用的数据挖掘方法主要包括以下三类:分类、聚类、关联. 分类(Classify)属于预测性模型. 分类模型的构建需要“训练样本”,训练样本中的每一个个体的类别必须是明确的. 分类模型的特征变量一般称为“自变量”,又叫“预测变量”,类别变量称为“目标变量”.

数据挖掘与Taco Bell编程

- everfly - 译言-每日精品译文推荐
来源Data Mining and Taco Bell Programming. Programmer Ted Dziuba suggests an alternative to traditional program that he called "Taco Bell Programming." The Taco Bell chain creates multiple menu items from about eight different ingredients.

使用Weka进行数据挖掘

- - 搜索研发部官方博客
数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西. 诚然,如果做算法实现甚至算法优化,确实需要很多背景知识. 但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西. 他们的精力,集中在特征提取,算法选择和参数调优上. 那么,一个可以方便地提供这些功能的工具,便是十分必要的了. 而weka,便是数据挖掘工具中的佼佼者.

数据挖掘 - 分类算法比较

- - IBM developerWorks 中国 : 文档库
随着计算能力、存储、网络的高速发展,人类积累的数据量正以指数速度增长. 对于这些数据,人们迫切希望从中提取出隐藏其中的有用信息,更需要发现更深层次的规律,对决策,商务应用提供更有效的支持. 为了满足这种需求,数据挖掘技术的得到了长足的发展,而分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多.

数据挖掘分类技术

- - CSDN博客云计算推荐文章
从分类问题的提出至今,已经衍生出了很多具体的分类技术. 下面主要简单介绍四种最常用的分类技术,不过因为原理和具体的算法实现及优化不是本书的重点,所以我们尽量用应用人员能够理解的语言来表述这些技术. 而且我们会在第4章再次给读者讲述分类算法和相关原理. 在我们学习这些算法之前必须要清楚一点,分类算法不会百分百准确.

数据挖掘之R与SQL

- Wolf - 刘思喆 @ 贝吉塔行星
今天看到老同学@JulieJulieJulieJulie 的浪漫求婚,真的很浪漫、很唯美、很感动. 正如评论说的,我们又相信爱情了. 于是,小兴奋,睡不着,爬起来补一篇文章. 最近在数据挖掘专业网站 KDnuggets 上刊出了2011年度关于数据挖掘/分析语言流行度的调查,不出意料R、SQL、Python果然排在了前三位.

数据挖掘的标准流程

- - CSDN博客推荐文章
    CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘过程标准". 此KDD过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数据引自Cios and Kurgan于2005年合著的论文trands in data mining and knowledge discovery中 )    在1996年,当时数据挖掘市场是年轻而不成熟的,但是这个市场显示了爆炸式的增长.