数据挖掘的10种分析方法

标签: 数据挖掘 分析 方法 | 发表时间:2014-03-10 16:51 | 作者:http://www.cyzone.cn
出处:http://www.cyzone.cn

  数据挖掘(Data Mining,DM),又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。

——以上引自互动百科

  数据挖掘(Data Mining)的十种分析方法:

  1. 记忆基础推理法(Memory-Based Reasoning:MBR)

  记忆基础推理法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。

  记忆基础推理法中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来,以供预测之用。记忆基础推理法的优点是它容许各种型态的数 据,这些数据不需服从某些假设。另一个优点是其具备学习能力,它能藉由旧案例的学习来获取关于新案例的知识。

  较令人诟病的是它需要大量的历史数据,有足够 的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时,不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预 测、医学诊疗、反应的归类等方面。

   2.市场购物篮分析(Market Basket Analysis)

  购物篮分析最主要的目的在于找出什么样的东西应该放在一起?商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品,找出相关的联想(association)规则,企业藉由这些规则的挖掘获得利益与建立竞争优势。

  举例来说,零售店可藉由此分析改变置物架上的商品排列或是设计吸引客户的商业套餐等等。

  购物篮分析基本运作过程包含下列三点:

  (1)选择正确的品项:这里所指的正确乃是针对企业体而言,必须要在数以百计、千计品项中选择出真正有用的品项出来。

  (2)经由对共同发生矩阵(co-occurrence matrix)的探讨挖掘出联想规则。

  (3)克服实际上的限制:所选择的品项愈多,计算所耗费的资源与时间愈久(呈现指数递增),此时必须运用一些技术以降低资源与时间的损耗。

  购物篮分析技术可以应用在下列问题上:

  (1)针对信用卡购物,能够预测未来顾客可能购买什么。

  (2)对于电信与金融服务业而言,经由购物篮分析能够设计不同的服务组合以扩大利润。

  (3)保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。

  (4)对病人而言,在疗程的组合上,购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。

   3.决策树(Decision Trees)

  决 策树在解决归类与预测上有着极强的能力,它以法则的方式表达,而这些法则则以一连串的问题表示出来,经由不断询问问题最终能导出所需的结果。典型的决策树 顶端是一个树根,底部有许多的树叶,它将纪录分解成不同的子集,每个子集中的字段可能都包含一个简单的法则。此外,决策树可能有着不同的外型,例如二元 树、三元树或混和的决策树型态。

   4.基因算法(Genetic Algorithm)

  基 因算法学习细胞演化的过程,细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似,它必须预先建立好一个模式,再经由 一连串类似产生新细胞过程的运作,利用适合函数(fitness function)决定所产生的后代是否与这个模式吻合,最后仅有最吻合的结果能够存活,这个程序一直运作直到此函数收敛到最佳解。基因算法在群集 (cluster)问题上有不错的表现,一般可用来辅助记忆基础推理法与类神经网络的应用。

   5.群集侦测技术(Cluster Detection)

  这个技术涵盖范围相当广泛,包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体,在许许多多的分析中,刚开始都运用到群集侦测技术,以作为研究的开端。

   6.连结分析(Link Analysis)

  连 结分析是以数学中之图形理论(graph theory)为基础,藉由记录之间的关系发展出一个模式,它是以关系为主体,由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉 连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为何,提出有利于公司的方案。除了电信业之外,愈来愈多的营销业者亦利用连结分析做有利于 企业的研究。

   7.在线分析处理(On-Line Analytic Processing;OLAP)

  严 格说起来,在线分析处理并不算特别的一个数据挖掘技术,但是透过在线分析处理工具,使用者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一 般,透过图表或图形等方式显现,对一般人而言,感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。

   8.类神经网络(Neural Networks)

  类神经网络是以重复学习的方法,将一串例子交与学习,使其归纳出一足以区分的样式。若面对新的例证,神经网络即可根据其过去学习的成果归纳后,推导出新的结 果,乃属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式,其学习效果十分正确并可做预测功能。

   9.区别分析(Discriminant Analysis)

  当 所遭遇问题它的因变量为定性(categorical),而自变量(预测变量)为定量(metric) 时,区别分析为一非常适当之技术,通常应用在解决分类的问题上面。若因变量由两个群体所构成,称之为双群体 — 区别分析 (Two-Group Discriminant Analysis);若由多个群体构成,则称之为多元区别分析(Multiple Discriminant Analysis;MDA)。

  (1) 找出预测变量的线性组合,使组间变异相对于组内变异的比值为最大,而每一个线性组合与先前已经获得的线性组合均不相关。

  (2) 检定各组的重心是否有差异。

  (3) 找出哪些预测变量具有最大的区别能力。

  (4) 根据新受试者的预测变量数值,将该受试者指派到某一群体。

   10.罗吉斯回归分析(Logistic Analysis)

  当 区别分析中群体不符合常态分配假设时,罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件(event)是否发生,而是预测该事件的机率。 它将自变量与因变量的关系假定是S行的形状,当自变量很小时,机率值接近为零;当自变量值慢慢增加时,机率值沿着曲线增加,增加到一定程度时,曲线协率开 始减小,故机率值介于0与1之间。

  摘自《市场研究网络版》,作者谢邦昌教授

相关 [数据挖掘 分析 方法] 推荐:

数据挖掘的10种分析方法

- - 创业邦
  数据挖掘(Data Mining,DM),又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程. 数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策.

常见数据挖掘分析方法介绍

- - 互联网分析
下面介绍十种数据挖掘(Data Mining)的分析方法,以便于大家对模型的初步了解,这些都是日常挖掘中经常遇到的算法,希望对大家有用. (甚至有数据挖掘公司,用其中的一种算法就能独步天下). 1、基于历史的MBR分析(Memory-Based Reasoning;MBR). 基于历史的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较.

分析报告、统计分析和数据挖掘的区别

- - 互联网分析
关于数据挖掘的作用,Berry and Linoff的定义尽管有些言过其实,但清晰的描述了数据挖掘的作用. “分析报告给你后见之明 (hindsight);统计分析给你先机 (foresight);数据挖掘给你洞察力 (insight)”. 你看到孙悟空跟二郎神打仗,然后写了个分析报告,说孙悟空在柔韧性上优势明显,二郎神在力气上出类拔萃,所以刚开始不相上下;结果两个人跑到竹林里,在竹子上面打,孙悟空的优势发挥出来,所以孙悟空赢了.

数据挖掘典型应用:如何做好关联分析

- - 互联网分析沙龙
在电商数据运营中,对于客户而言,有两个很重要的指标对于扩大销售规模是很重要的:第一,提高顾客重复购买次数;第二,提高客户订单中的Basket size(即购物篮件数). 而第二个指标提高Basket size,就是让客户从以前只购买一件产品的转换到现在购买多件产品,从而提高整个购物篮的销售金额,最大限度地实现销售增长.

图挖掘:社会网络分析和多关系数据挖掘

- -
新兴研究领域介绍:图挖掘和多关系数据挖掘.        1、图的用途越来越广,包括对互联网、社会化网络、生物、电路、图像的建模.        2、许多图搜索算法已经被开发出来了,并且广泛用在信息检索、计算机视觉等领域;.        3、需要进一步开发高效的图挖掘算法,以便从更加复杂的结构化数据中挖掘出有效的知识.

对于数据分析与数据挖掘的数据10个问题

- - 乐无限-微信公众号内容聚合站
1,作为支付宝数据首席分析师,你怎么看待“数据挖掘”这个词. 所谓的“数据挖掘”是基于用户的行为挖掘出有价值的东西,以及这个东西被用到商业环境上. 比如非常著名的“啤酒与尿布”的案例,它的背景是在1992年的美国,每周四或者每周五下午5点-7点的时间形成的连锁销售. 但是这个联合销售的方法并不适合任何时间和任何场合,单纯地剥离其背景本身,谈数据挖掘就是一个很泛的事情.

LinkedIn:2014年最吃香工作技能-统计分析和数据挖掘位列第一

- - 199IT互联网TMT数据
LinkedIn对全球超过3.3亿用户的工作经历和技能进行分析,公布 2014年最受雇主喜欢、最炙手可热的25项技能. 其中位列榜首的是统计分析和数据挖掘. 这项技能在 去年只排名第五,而当时的最热技能是社交媒体营销. 25岁的Quint Gribbin是Red Owl Analytics的数据科学家.

数据挖掘是神马?

- - 互联网分析
1、数据挖掘需要‘神马样’的流程.  2、哥,有没有详细点的,来个给力的. 4、数据在统计意义上有哪些类型. 9、知道这些工具不知道如何在工作中用呀. 11、还有没有更人性化、智能化的展现. 12、上面这图看起来很给力,背后很复杂吧.  16、转载的留个来源 ,毕竟是我辛苦收集和想出来的,谢谢. 忘记“大数据”,从“中数据”开始.

这就是数据挖掘

- - 互联网分析
当今数据库的容量已经达到上万亿的水平(T)— 1,000,000,000,000个字节. 在这些大量数据的背后隐藏了很多具有决策意义的信息,那么怎么得到这些“知识”呢. 也就是怎样通过一颗颗的树木了解到整个森林的情况. 计 算机科学对这个问题给出的最新回答就是:数据挖掘,在“数据矿山”中找到蕴藏的“知识金块”,帮助企业减少不必要投资的同时提高资金回报.

关于数据挖掘

- - 牛国柱
以下内容来自网络,关于数据挖掘的一些最基本的知识. 数据挖掘是对一系列数据进行分析和挖掘的方法的统称,在精准营销领域,最常用的数据挖掘方法主要包括以下三类:分类、聚类、关联. 分类(Classify)属于预测性模型. 分类模型的构建需要“训练样本”,训练样本中的每一个个体的类别必须是明确的. 分类模型的特征变量一般称为“自变量”,又叫“预测变量”,类别变量称为“目标变量”.