聚类分析在用户分类中的应用

标签: 数据分析 用户分析 用户体验 | 发表时间:2013-10-16 15:51 | 作者:yoyo
出处:http://www.woshipm.com


什么是聚类分析?

聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求 组内对象相似性较 组间对象相似性较 。在用户研究中,很多问题可以借助聚类分析来解决,比如,网站的信息分类问题、网页的点击行为关联性问题以及用户分类问题等等。其中,用户分类是最常见的情况。
聚类分析的基本过程是怎样的?

  • 选择聚类变量
  • 聚类分析
  • 找出各类用户的重要特征
  • 聚类解释&命名

 

||  选择聚类变量

在设计问卷的时候,我们会 根据一定的假设,尽可能选取对产品使用行为有影响的变量,这些变量一般包含与产品密切相关的用户态度、观点、行为。但是,聚类分析过程对用于聚类的变量还有一定的要求:

  • 这些变量在不同研究对象上的值具有明显差异;
  • 这些变量之间不能存在高度相关。

因为,首先,用于聚类的变量数目不是越多越好,没有明显差异的变量对聚类没有起到实质意义,而且可能使结果产生偏差;其次,高度相关的变量相当于给这些变量进行了加权,等于放大了某方面因素对用户分类的作用。

识别合适的聚类变量的方法:

  • 对变量做聚类分析,从聚得的各类中挑选出一个有代表性的变量;
  • 做主成份分析或因子分析,产生新的变量作为聚类变量。

|| 聚类分析

相对于聚类前的准备工作,真正的执行过程显得异常简单。数据准备好后,丢到统计软件(通常是spss)里面跑一下,结果就出来了。

这里面遇到的一个问题是,把用户分成多少类合适?通常,可以结合几个标准综合判断:

  • 看拐点(层次聚类会出来聚合系数图,如右图,一般选择拐点附近的几个类别)
  • 凭经验或产品特性判断(不同产品的用户差异性也不同)
  • 在逻辑上能够清楚地解释

|| 找出各类用户的重要特征

确定一种分类方案之后,接下来,我们需要返回观察各类别用户在各个变量上的表现。根据差异检验的结果,我们以颜色区分出不同类用户在这项指标上的水 平高低。如下图,红色代表“远远高于平均水平”,黄色代表“平均水平”,蓝色代表“远远低于平均水平”。其他变量以此类推。最后,我们会发现不同类别用户 有别于其他类别用户的重要特征。

|| 聚类解释&命名

在理解和解释用户分类时,最好可以结合更多的数据,例如,人口统计学数据、功能偏好数据等等(如下图)……最后,选取每一类别最明显的几个特征为其命名,就大功告成啦!

参考资料:

http://www.redshiftresearch.co.uk/ImageLibrary/Cluster%20Analysis.pdf

《社会统计分析方法——spss软件应用》

 

原文来自:网易UED


本文链接《 聚类分析在用户分类中的应用
微信号:woshipm,产品干货天天推荐,欢迎订阅

相关 [聚类分析 用户 分类] 推荐:

聚类分析在用户分类中的应用

- - 人人都是产品经理
聚类分析属于探索性的数据分析方法. 通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的. 聚类结果要求 组内对象相似性较 高, 组间对象相似性较 低. 在用户研究中,很多问题可以借助聚类分析来解决,比如,网站的信息分类问题、网页的点击行为关联性问题以及用户分类问题等等.

“分类展示“给用户带来的“正反馈”

- - 人人都是产品经理
一款产品终究是要和用户打交道的,那么在这个打交道的过程必然会有用户和产品信息之间的交互. 用户和产品信息之间交互设计的好坏,直接影响用户理解、接受、消化信息的质量,进而影响用户使用产品的效率. 互联网产品和传统产品不同之处在于随时随地提供给用户信息,这个过程如果设计的不好,将会大大影响产品的用户体验及使用效率.

Android 分类法:六个类型,八种用户

- - 爱范儿 · Beats of Bits
Android 是一个如此丰富而且复杂的生态圈,以至于人们谈论它的时候,常常讲述的是不同的东西. 在个人博客上,风险投资公司安德森-霍洛维茨基金合伙人、科技博客作者 Benedict Evans 分析了不同类型的 Android,并且对 Android 用户进行了归类. 他认为,市场上的 Android 可以分为六类:.

细说“用户分类”:如何避免教条主义与想当然

- 小宇 - 所有文章 - UCD大社区
今天学习白鸦的微博时看到一段话,颇有共鸣:“下午又被问道:你这个产品的用户年龄主要集中在多少. 因为真的不关心,我只知道在大网购人群里面就行,相对于年龄这样的人口属性我更关注用户的行为属性,比如他网购的被动和主动比例、是不是喜欢比较、平均消费额、消费类目、上网时间、上不上微博”. 恰巧前几天看到Shimu的博客上也在讨论这一问题,谈及了对一些流行的用户分类方法的质疑,加之在我的工作中也经常遇到一些同事对用户分类带有流行的误解,于是觉得很有必要把这个问题瓣开来细细分析一番,希望能对纠正某些教条主义和想当然有所帮助.

字体的分类

- 旭闻 - 般若黑洞
写书需要,花了一个晚上做了一张思维导图,算是写作过程中的副产品,粗略了些. 博客更新很慢,这篇blog算是透漏下最近的工作吧,我不是懒,是真没有闲着. 文字部分参考了维基百科、Robin Williams《写给大家看的设计书》以及这篇文章. 之前还写过一篇入门的:PPT中字体的选用,有兴趣可以对比一下,不过里面有很多错误,不太好意思拿出来了.

分类算法概述。

- - 小彰
摘 要:分类是数据挖掘、机器学习和模式识别中一个重要的研究领域. 通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较,总结出了各种算法的特性,为使用者选择算法或研究者改进算法提供了依据. 分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知类别的样本映射到给定类别中的某一个.

朴素贝叶斯分类

- - 四火的唠叨
文章系本人原创,转载请保持完整性并注明出自 《四火的唠叨》. 英国数学家贝叶斯(Thomas Bayes)曾经给出如下定理:. P(A)表示A事件发生的概率,P(B)表示B事件发生的概率;P(A|B)表示在B事件已经确定发生的情况下,发生A事件的概率;P(B|A)表示在A事件已经确定发生的情况下,发生B事件的概率;P(AB)表示AB事件同时发生的概率.

LibShortText - 短文本分类

- - 互联网旁观者
Chih-Jen Lin的新作.   青春就应该这样绽放   游戏测试:三国时期谁是你最好的兄弟.

用户及用户特征

- Nick - 所有文章 - UCD大社区
要创建1个可以与用户有效交流的网站,必须考虑到与你交流的用户. 理解用户的需求对我们决定网站内容、信息量、用户以及内容结构至关重要. 用户不是被动的接受网站提供的信息,所有人都会不断的地根据自身经验和猜测来理解. 自己在屏幕上看到的内容,即使我们认同是相同语言,但是每个人的理解含义不会完全相同. 我们都会根据自己的知识和经验来理解所看到的内容,(如果你不住再伦敦,就不知道Oyster卡,Oyster卡是乘坐公交交通时用的旅游储值卡).

用户体验

- tal-rasha - 博客园-首页原创精华区
    用户体验是一个很大的话题,先从一个故事说起.     周末参加了两天的PMP培训,听课期间注意到老师的一个细节,在讲选择题的时候,选项A、C读音正常,而“B”老师读为Boy,“D”老师读为Dog.     刚听到的时候大家莞尔一笑,以为这是个善意的玩笑.     很快,我想明白了,B和D的发音类似,容易混淆;Boy和Dog是简单的单词,发音能够明确区分,也没有类似Bog和Doy的读音混淆.