如何开始数据分析

标签: IT技术 数据分析 | 发表时间:2017-12-11 20:06 | 作者:精算狗
出处:http://blog.jobbole.com

有了数据。我需要一些思路。应该从哪开始?

这是个常见的问题。

菜鸟数据科学家、分析师,以及刚刚接触数据科学的管理人员,通常有这样的疑问。

他们的老板都在承受着压力,得证明花在系统上去收集、存储及组织资料的钱(更不用说还有那些花在数据科学家身上的钱)是有回报的。

他们偶尔很幸运——待解决的问题可能非常明确,而且被深入研究过(例如,预测哪个客户可能会取消手机合约)。在这种情况下,有很多种方法来进行数据分析,这是数据科学的天堂。

但是他们拿到的经常都是一个简单的问题:“做个数据挖掘,看看能挖到什么有趣的东西”。

从哪开始呢?

这是个很困难的问题,而且没有唯一完美的答案。我确信前人已经推断出很多方法了。下面是我发现的一个有用的方法。

该方法基于两个观点:

  1. 每个企业都可以看作是由很多可变部分组成的复杂系统。没人能 100% 弄懂它。即使是有经验的员工,他们对企业的理解和它实际的运作也是有差别的。由于每个企业都在不断变化,这种差别只会越来越大。
  1. 你所掌握的与企业相关的任何数据,都能描绘这个复杂系统某些方面的运转状态。

有了这两点,依据所有能加强你对系统 实际运作理解的事物,你可以想出一个“思路”。它能填补你在系统工作和实际运作之间的认知差距。

或者,借用 Andy Grove 的《给经理人的第一课》(High Output Management)中的一个类比,复杂系统相当于是黑匣子,而思路就像是黑匣子边上开的窗户,“照亮”里面发生的一切。

所以寻找思路的过程,可以看作是通过分析数据,理解一个复杂事物的 实际运作方式所付出的努力。

而这正是科学家们在做的事!这个世界复杂得让人难以置信,科学家们正是通过一种不断实践和检验的 科学方法(the Scientific Method),来逐步提高我们对世界的认识。

通俗地说:

利用他们当前对系统运作的理解(“理论”)做出一定的预测。

然后检验数据( 有时需要准备精心设计的实验来生成数据 )是否符合预测。

如果不符合预测,就要研究发生了什么,并更新他们的认识(“修改理论”)。

做出新的预测。重复这个过程。

数据科学家和分析师能做的也是同样的事。

在探索数据之前,准备好一个清单,写下来你期望从数据中看出什么:关键变量的分布,重要变量之间的关系等等。这样一个清单实质上就是基于当前对企业的理解而做出的预测。

现在来分析数据。画统计图、总结,以及任何能验证数据是否符合预期的分析方法。

有不符合预期的地方吗?有让你发出“这很奇怪啊。”或者“这不合理啊。”这种感慨的地方吗?

放大来看,试着弄清楚企业的哪部分导致了数据中这种奇怪的现象。这也是关键步骤。

你可能就此找到了了解企业的思路,并且加强了理解。

举个真实的例子。几年前,我们在研究一个大型 B2C 零售商的交易数据。数据集的一个字段是“交易金额”。

我们的预期是什么?我们预期大多数交易金额都在均值附近,但是可能会存在一些偏小的金额和偏大的金额。所以该字段的柱状图很可能看起来是这样的:

6.1

但是我们检验数据后发现,它看起来是这样的:

6.2

我们调查了“hmm”那部分的交易数据。

原来这些交易不是来自于他们的常客——为孩子购物的年轻妈妈们;而是来自于那些一年来美国旅游一次的外国人。他们来商店购买大量的物品,回国后在他们自己的商店销售。这些分销商与我们的零售商没有任何特别的关系。

该零售商当时在北美以外没有实体店,他们在电商网站上销售的商品也不运往这些地区。但是这些地区的需求量又足够多,促使当地企业如雨后春笋般涌现,填补空缺。

这个微不足道的“发现”会引出一系列有趣的连锁问题。比如,这些分销商买了哪些商品,什么样的促销活动最适合他们,以及如何使用这些数据来影响全球扩张计划。

所有这些都来自于一个简单的柱状图。

伟大的艾萨克·阿西莫夫(Isaac Asimov)完美地领会了这个精神。

科学研究中最令人激动的话,预示着新发现的话,不是“找到啦!”而是“真有趣……”

艾萨克·阿西莫夫( Isaac Asimov

要知道从数据出发找到企业的“根本动机”需要时间、精力以及耐心。如果你在企业中拥有一些的人脉,能回答你的问题,你会有更多发现。另外,你觉得奇怪的事,他们可能已经习以为常了(因为他们对该企业的了解可能比你更多),这样你能节省很多时间。

越能理解企业中这些细微差别,你的预测会越有指向性,并且最终会有越好的发现。所以,尽你所能去挖掘企业中的各种细节。寻找了解企业的同事,向他们学习,如果可能的话把他们发展成你的同伴。

掌握数据科学知识是件好事,但是掌握一些企业相关的知识也会让你的工作质量大幅提升。

在数据科学之外,我发现“预测——检查”的思维方式在任何分析上都很有用。

在“翻页”之前,停下来思考一会儿,猜想一下哪种事是你希望看到的。你会发现这样能增加对照,并且更能从数字的海洋中发现趣事了。

或者你会发现在收集数据或是计算时出了错。(Twyman 定律)

如何开始数据分析,首发于 文章 - 伯乐在线

相关 [数据分析] 推荐:

Excel 数据分析

- - ITeye博客
用Excel做数据分析——直方图. 已有 0 人发表留言,猛击->> 这里<<-参与讨论. —软件人才免语言低担保 赴美带薪读研.

扯扯数据分析

- - 互联网分析
在别人的眼里数据分析既是很深奥的职业,也是被人挑战的职业,更是让你又恨又爱的职业. 其实这些都不重要的,重要的是对此行感兴趣,骨子里有量化一切的 意识. 很多人首先脑海中出现的是1、2、3……等等,为何有这样的印象. 其实是我们数据分析师为了更好的运用“统计学”所以要将许多 数据想尽办法来转化为1、2、3这样的数据形式,从而更深入、科学的分析data,不扯这个了,这个没什么意思,看图:.

数据分析那些事

- - 小蚊子乐园
今早突然有个想法,就是经常有网友会对数据分析方面有一些困惑,并且咨询我该怎么办. 并且经常是同样的问题,所以觉得有必要对一些经典共性的问题进行整理,与大家分享,这里并非标准答案,仅作参考. 欢迎提出自己对数据方面的疑问,将在此篇将持续更新,敬请关注. ----------------------------------------我不是完美的分割线--------------------------------------- .

谈大数据分析

- - 人月神话的BLOG
对于数据分析层,我们可以看到,其核心重点是针对海量数据形成一个分布式可弹性伸缩的,高查询性能的,支持标准sql语法的一个ODS库. 我们看到对于Hive,impala,InfoBright更多的都是解决这个层面的问题,即解决数据采集问题,解决采集后数据行列混合存储和压缩的问题,然后形成一个支撑标准sql预防的数据分析库.

Twitter收购数据分析公司BackType

- zou guangxian - 36氪
Twitter刚刚宣布已经收购BackType,一家帮助公司和品牌衡量社交媒体影响力的数据分析公司. BackType在博客上宣布这一消息时称团队将集中精力为Twitter发布商合作伙伴开发工具. 总部位于旧金山的BackType是一家由YC孵化的创业公司,自2008年以来已获得130万美元投资. 作为交易的一部分,BackType将停止BackTweets(帮助内容发布商了解推讯是如何转化为网站流量和销售额)的新用户注册.

数据分析中遇到的“圆”

- simple - 所有文章 - UCD大社区
与十年前不同,当今令数据分析师迷茫的,可能不再是数据很少,而是数据很多;今天不是不知道玩好数据的重要性,而是不知道玩错数据的危害性,即所谓甜蜜的烦恼. 一个数据分析师,如果能体会到,当下数据存在的核心问题,并且能清楚解决办法,就可以精益求精了. 这次想跟大家讲的是一个由受、想、行、识四个部份所组成生生不息的圈(Feedback Loop),彼此互相推进.

数据分析师的基本素质

- AWard - 小蚊子乐园
摘自《谁说菜鸟不会数据分析》第一章.     Mr.林看到小白斗志昂扬的样子非常高兴:别光说不做啊,要成为一名优秀的数据分析师,并非一件容易的事. 虽然所学的专业与数据分析不相关,但你可以通过工作中的实践学习数据分析,需要付出大量的时间和精力,不经一番寒彻骨,怎得梅花扑鼻香.     下面,我给你介绍一名合格的数据分析师需要具备的五大基本能力和素质.

新读图时代:500px.com数据分析

- holic536 - 东西
500px是一个由世界各地的摄影爱好者组成的高品质图片社区. 网站旨在寻找最优秀的摄影人才,分享和发现精彩的照片,找到志同道合的朋友. 网站创建于2003年,2009年500px重新改版升级成为2.0版. 从2009年的1000用户发展到现如今的4.5万用户,也就是在社交网络兴起之后,网站发展更加迅猛.

数据分析如何反恐 ?

- Chin - 未来趋势 电子商务趋势
喜欢做数据分析源于因为每个数据背后都有一个故事. 从少到大都有一个兴趣从来没变过,就是Forecast, 跟朋友说我其实不喜欢数据没人相信,但心底里其实想得到的是那仲Discover的快感. 曾经当个警察,喜欢风水算命,帮过职业赌徒做数据分析,这一切的快感就是来自类似以下这样的经历.  (节录自: 超级魔鬼经济学).

数据分析师的级别

- - 博客 - 伯乐在线
虽然这个工作的人还不能称作数据分析师,但是往往作这样工作的人还都自称是数据分析师,. 这样的人,只能通过×××系统看到有限的数据,并且很少去处理数据,甚至不理解数据的由来和含义,只是机械的把自己看到的数据拷贝出来,转发给相应的人. 这类人发出来的数据,是否有意义,怎么解读,他自己是不知道的,只能期望收到数据的人了.