如何开始数据分析
有了数据。我需要一些思路。应该从哪开始?
这是个常见的问题。
菜鸟数据科学家、分析师,以及刚刚接触数据科学的管理人员,通常有这样的疑问。
他们的老板都在承受着压力,得证明花在系统上去收集、存储及组织资料的钱(更不用说还有那些花在数据科学家身上的钱)是有回报的。
他们偶尔很幸运——待解决的问题可能非常明确,而且被深入研究过(例如,预测哪个客户可能会取消手机合约)。在这种情况下,有很多种方法来进行数据分析,这是数据科学的天堂。
但是他们拿到的经常都是一个简单的问题:“做个数据挖掘,看看能挖到什么有趣的东西”。
从哪开始呢?
这是个很困难的问题,而且没有唯一完美的答案。我确信前人已经推断出很多方法了。下面是我发现的一个有用的方法。
该方法基于两个观点:
- 每个企业都可以看作是由很多可变部分组成的复杂系统。没人能 100% 弄懂它。即使是有经验的员工,他们对企业的理解和它实际的运作也是有差别的。由于每个企业都在不断变化,这种差别只会越来越大。
- 你所掌握的与企业相关的任何数据,都能描绘这个复杂系统某些方面的运转状态。
有了这两点,依据所有能加强你对系统 实际运作理解的事物,你可以想出一个“思路”。它能填补你在系统工作和实际运作之间的认知差距。
或者,借用 Andy Grove 的《给经理人的第一课》(High Output Management)中的一个类比,复杂系统相当于是黑匣子,而思路就像是黑匣子边上开的窗户,“照亮”里面发生的一切。
所以寻找思路的过程,可以看作是通过分析数据,理解一个复杂事物的 实际运作方式所付出的努力。
而这正是科学家们在做的事!这个世界复杂得让人难以置信,科学家们正是通过一种不断实践和检验的 科学方法(the Scientific Method),来逐步提高我们对世界的认识。
通俗地说:
利用他们当前对系统运作的理解(“理论”)做出一定的预测。
然后检验数据( 有时需要准备精心设计的实验来生成数据 )是否符合预测。
如果不符合预测,就要研究发生了什么,并更新他们的认识(“修改理论”)。
做出新的预测。重复这个过程。
数据科学家和分析师能做的也是同样的事。
在探索数据之前,准备好一个清单,写下来你期望从数据中看出什么:关键变量的分布,重要变量之间的关系等等。这样一个清单实质上就是基于当前对企业的理解而做出的预测。
现在来分析数据。画统计图、总结,以及任何能验证数据是否符合预期的分析方法。
有不符合预期的地方吗?有让你发出“这很奇怪啊。”或者“这不合理啊。”这种感慨的地方吗?
放大来看,试着弄清楚企业的哪部分导致了数据中这种奇怪的现象。这也是关键步骤。
你可能就此找到了了解企业的思路,并且加强了理解。
举个真实的例子。几年前,我们在研究一个大型 B2C 零售商的交易数据。数据集的一个字段是“交易金额”。
我们的预期是什么?我们预期大多数交易金额都在均值附近,但是可能会存在一些偏小的金额和偏大的金额。所以该字段的柱状图很可能看起来是这样的:
但是我们检验数据后发现,它看起来是这样的:
我们调查了“hmm”那部分的交易数据。
原来这些交易不是来自于他们的常客——为孩子购物的年轻妈妈们;而是来自于那些一年来美国旅游一次的外国人。他们来商店购买大量的物品,回国后在他们自己的商店销售。这些分销商与我们的零售商没有任何特别的关系。
该零售商当时在北美以外没有实体店,他们在电商网站上销售的商品也不运往这些地区。但是这些地区的需求量又足够多,促使当地企业如雨后春笋般涌现,填补空缺。
这个微不足道的“发现”会引出一系列有趣的连锁问题。比如,这些分销商买了哪些商品,什么样的促销活动最适合他们,以及如何使用这些数据来影响全球扩张计划。
所有这些都来自于一个简单的柱状图。
伟大的艾萨克·阿西莫夫(Isaac Asimov)完美地领会了这个精神。
科学研究中最令人激动的话,预示着新发现的话,不是“找到啦!”而是“真有趣……”
艾萨克·阿西莫夫( Isaac Asimov )
要知道从数据出发找到企业的“根本动机”需要时间、精力以及耐心。如果你在企业中拥有一些的人脉,能回答你的问题,你会有更多发现。另外,你觉得奇怪的事,他们可能已经习以为常了(因为他们对该企业的了解可能比你更多),这样你能节省很多时间。
越能理解企业中这些细微差别,你的预测会越有指向性,并且最终会有越好的发现。所以,尽你所能去挖掘企业中的各种细节。寻找了解企业的同事,向他们学习,如果可能的话把他们发展成你的同伴。
掌握数据科学知识是件好事,但是掌握一些企业相关的知识也会让你的工作质量大幅提升。
在数据科学之外,我发现“预测——检查”的思维方式在任何分析上都很有用。
在“翻页”之前,停下来思考一会儿,猜想一下哪种事是你希望看到的。你会发现这样能增加对照,并且更能从数字的海洋中发现趣事了。
或者你会发现在收集数据或是计算时出了错。(Twyman 定律)