数据的秘密(上)- 为什么要关注数据

标签: 数据 秘密 数据 | 发表时间:2015-09-02 20:39 | 作者:
出处:http://blog.devtang.com/

前言

由于科技的进步,以及数据「数字化」地存储,使得现代人类可以获得海量的数据。而有了这些海量的数据之后,借助于一些数据分析工具和方法,我们就可以从数据中找到社会运行的「秘密」。

在工作中,借助这些「秘密」,我们有可能发现商业中的新机会,也可能验证或推翻自己的一些猜想。数据分析,使得我们对「秘密」的探索有了一个可靠的方法。

在本文中,我想分享一下工作中学到的发现数据中秘密的心得。

稻盛和夫的故事

我们先看看 稻盛和夫 挽救日航的故事吧。他的这段传奇经历曾经被很多媒体报道,我将故事摘要如下:

2010 年 1 月 19 日,日本航空公司申请破产保护。日航有 58 年历史,一度被视作日本战后经济繁荣的骄傲象征。

2010 年 2 月 1 日,受日本首相邀请,稻盛和夫答应出日航董事长,一年之后,日航扭亏为盈,利润是对手全日空的三倍。 仅仅用了一年时间,日航做到了三个第一,一个是利润世界第一,一个是准点率世界第一,一个是服务水平世界第一。

在日航重新上市之后,稻盛和夫分享了他 挽救日航的秘密。这里面涉及的内容很多,其中有很重要的一条,就是稻盛和夫非常重视日航具体的运营数据,他花了很大的力气来优化数据的获取,从而能够对日航的现状进行判断。

稻盛和夫是这样说的:

我担任董事长后,最为吃惊的是,公司的各项统计数据不仅不全,而且统计时间很长很慢,往往需要 3 个月之后才能搞全数据,以至于经营者无法迅速掌握公司的运营情况。 所以,在对企业内部进行改革时,我特别关注统计工作。经过改革,现在各个部门的数据做到即有即报,公司详尽的经营报告,做到了一个月内完成。

如果把日航看过一个生病了的病人,稻盛和夫的做法其实和现代医学的做法类似,就是首先进行各项检查,获得病人的身体指标信息,有了这些检查数据,我们就可以利用各种基于数据的经验,来进行病情诊断和治疗。所有的治疗手段又可以通过再次的检查来验证,从而进一步改进治疗方法。

人做为一个生命体,全身密布的神经负责着各种信息的传递,所以我们的大脑能够接受到各种信息,从而做出决策,饿了吃饭,冷了加衣服,保证着我们身体的健康。

而企业没有天生的神经系统,所以数据收集和分析就显得异常重要了。日航作为一家运营了 50 多年的公司,居然在这方面做得非常差,难怪会进入破产的边缘。而稻盛和夫用的办法也很简单,先让数据能够收集起来,那么后续依据数据做决策就不再那么困难了。

Monitor your data(监控你的数据)

我刚毕业的时候加入的是网易公司,当时负责做网易邮箱的底层 Restful Api。当时我们部门的老大郭常圳常常讲要「monitor your data」,我当时作为一个应届生,刚开始对这个口号不太理解。我当时想:数据当然是重要的,但是也不值得老挂在嘴边讲吧?但是后来我才慢慢发现,这其实确实非常重要。

作为程序员,我们开发一个后台服务,大家有没有测试过以下数据:

  • 这个服务能够承受多少的 QPS(每秒访问量)?
  • 平均响应时间和 99% 的响应时间是多少?
  • 如果服务器压力增加,我们能不能通过简单的加机器来解决,需要加多少台机器?
  • 当前线上服务瓶颈在哪里?
  • 按当前的增长速度,多久我们得需要加机器?

当时郭常圳带领我们,将我们做的每一个服务都进行了详细的压力测试,我们对于我们的服务承受力有着非常详细的数据测试结果。

这一点每个公司都做到了吗?其实不是。我还记得我们后来和网易的网站部共同开发网易微博后台,当时我们因为要将邮箱微博和网易微博数据合并,需要进行在线的数据迁移。我当时负责数据迁移工作,在我向网站部询问我应该用多大的请求压力来迁移数据时,对方只是回答:“尽量慢点”。

我当时就傻掉了,谁能告诉我什么叫 “尽量慢点”?于是我只能小心翼翼,一点一点地增加压力,最后我发现,他们的数据库其实一点压力都没有,我根本就不用控制压力都不会影响线上服务。但是,由于他们「monitor your data」做得不好,所以他们对任何可能的压力都心怀恐惧,不敢乱动。

后来我也私下和他们求证了一下,他们果然完全不知道他们的服务器能够承受多少 QPS。大家也可以问问自己公司的服务器同事,自己的服务器能够承受的 QPS 是多少,就知道自己的公司在这一点上做得好不好了。

而现在,数据驱动的思维更加深入到互联网开发中了。因此,国外的 New Relic 这类公司,才可以获得上亿美金的估值。 New Relic 的工作原理是放很多小的探针到你的程序代码中,这些探针收集到非常详细的程序运行数据,就可以为你优化服务器提供有效的建议。

产品上的「monitor your data」

如果说技术上的「monitor your data」只是影响服务稳定性的话,那么产品上的「monitor your data」就会决定产品的成败了。

我认为产品上的数据分析有以下作用。

验证想法

在互联网行业工作这么多年,我发现了一个秘密,就是任何新的互联网产品,都不是靠用户调研或数据分析来的。

因为用户调研非常难做,稍不注意就会被别的因素影响,所以乔布斯曾经说他从来不做用户调研。而数据分析对于一个新产品来说,会陷入无米之炊的尴尬境地。

所以很多新产品的第一版都是创始人或产品经理「拍脑袋」的产物。这一点其实是非常现实的做法。「拍脑袋」依赖于创始人的经验,如果创始人经验丰富,那么很可能产品对了 7 分,错了 3 分。另外那 3 分的错误假设,可以在产品上线后迅速通过数据来验证,从而迭代修正这些假设。

所以数据分析对于产品来说,第一大作用就是验证(或推翻)产品经理的假设,从而使产品能够得到快速迭代改进。

发现新的秘密

很多时候,数据分析不光会得到你的产品本身的状态,还会发现一些新的机会。借助这些新发现,我们对产品产生新的认识。

拿我们的创业产品「小猿搜题」来说,我们一直在监控它的 NPS(净推荐值) 数据。为了把数据分析得更加细致,我们把打 NPS 0 分的用户行为进行了抽样分析,最终我们发现,虽然我们的 slogon 叫「初高中拍照搜题利器」,但是却有大量的小学生用户在使用我们的产品。

我们并没有为小学生做任何的产品上的优化,所以造成了这部分用户没有被很好的满足。所以,我们最近在内容和搜索算法上针对小学生做了特别优化,同时将产品的 slogon 修改成了「中小学拍照搜题利器」。

如果没有细致的数据分析,我们可能就错过了几千万的潜在用户。

发现数据规律

一个产品会有非常多的指标,日活,月活,留存率,年龄分布,用户使用习惯等,产品经理应该对这些指标了如指掌,在对这些数据熟悉之后,产品经理就可以发现数据中的变化规律或异常点,从而对产品带来一些改进。

在这一点上,我喜欢讲林彪的一个故事。

1948 年辽沈战役开始之后,在东北野战军前线指挥所里面,每天深夜都要进行例常的 “每日军情汇报”:由值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。

那几乎是重复着千篇一律的枯燥无味的数据:每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少、枪支、物资多少。

司令员林彪的要求很细,俘虏要分清军官和士兵,缴获的枪支,要统计出机枪、长枪、短枪;击毁和缴获尚能使用的汽车,也要分出大小和类别。

经过一天紧张的战斗指挥工作,人们都非常疲劳。整个作战室里面估计只有定下这个规矩的司令员林彪本人、还有那个读电报的倒霉参谋在用心留意。

1948 年 10 月 14 日,东北野战军以迅雷不及掩耳之势,仅用了 30 小时就攻克了对手原以为可以长期坚守的锦州之后,不顾疲劳,挥师北上与从沈阳出援的敌精锐廖耀湘基团二十余万在辽西相遇,一时间形成了混战。战局瞬息万变,谁胜谁负实难预料。

在大战紧急中,林彪无论有多忙,仍然坚持每晚必作的 “功课”。一天深夜,值班参谋正在读着下面某师上报的其下属部队的战报。说他们下面的部队碰到了一个不大的遭遇战,歼敌部分、其余逃走。与其它之前所读的战报看上去并无明显异样,值班参谋就这样读着读着,林彪突然叫了一声 “停!” 他的眼里闪出了光芒,问:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?”

大家带着睡意的脸上出现了茫然,因为如此战斗每天都有几十起,不都是差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句:

“为什么那里缴获的短枪与长枪的比例比其它战斗略高”? “为什么那里缴获和击毁的小车与大车的比例比其它战斗略高”? “为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高”?

人们还没有来得及思索,等不及的林彪司令员大步走向挂满军用地图的墙壁,指着地图上的那个点说:“我猜想,不,我断定!敌人的指挥所就在这里!”

随后林彪口授命令,追击从胡家窝棚逃走的那部分敌人,并坚决把他们打掉。各部队要采取分割包围的办法,把失去指挥中枢后会变得混乱的几十万敌军切成小块,逐一歼灭。

廖耀湘对自己静心隐蔽的精悍野战司令部那么快就被发现、打掉,觉得实在不可思议,认为那是一个偶然事件,输得不甘心。当他得知林彪是如何得出判断之后说,“我服了,败在他手下,不丢人。”

有些时候,一个数据中的异常点,就是一次决定性的机会。而产品经理只有做好「monitor your data」,才能抓住这样的机会。

培养产品直觉

有一些产品,产品经理自己就是目标用户,所以可以比较容易用同理心来分析出用户的需求。但是像我们猿题库这次创业,目标用户都是初高中生,我怎么知道这些 00 后的需求、想法和兴趣爱好?

除了多和他们聊天,多用他们喜欢的产品外,分析他们的行为数据也至关重要。郭常圳常常说:“我们做产品要有场景化思维,要还原用户当时真实的使用场景”。而通过分析一些用户使用数据,就有助于我们还原用户使用场景。

这种事情做得多了,我们就会更加了解用户了,慢慢就形成了产品的直觉。

总结

关注数据和数据分析能力,是互联网时代生存的基本技能。不管是做产品还是做技术,养成「monitor your data」的习惯,都可以让你将工作做得更加出色。

本文讲完了为什么要关注数据,在下一篇里,我将分享具体如何做。

Posted by 唐巧 Sep 2nd, 2015 summary

关注我的「iOS开发」微信公众号,每天获得精选的 iOS 开发文章和创业心得:

原创文章,版权声明:自由转载-非商用-非衍生-保持署名 | Creative Commons BY-NC-ND 3.0

相关 [数据 秘密 数据] 推荐:

数据的秘密(下)- 如何分析数据

- - 唐巧的技术博客
上一篇文章中,我们介绍了为什么要关注数据,在本文中我将分享具体如何做. 大多数人都能做到关注宏观的数据,拿互联网产品来说,日活,月活,流失率,NPS(净推荐值),这些都是宏观的数据. 宏观数据能够反映出产品的整体状况,是值得长期关注的. 但是在宏观之外,我们还应该关注一些细节的数据. 拿日活来说,我们可以再进一步进行分析,比如:.

数据的秘密(上)- 为什么要关注数据

- - 唐巧的技术博客
由于科技的进步,以及数据「数字化」地存储,使得现代人类可以获得海量的数据. 而有了这些海量的数据之后,借助于一些数据分析工具和方法,我们就可以从数据中找到社会运行的「秘密」. 在工作中,借助这些「秘密」,我们有可能发现商业中的新机会,也可能验证或推翻自己的一些猜想. 数据分析,使得我们对「秘密」的探索有了一个可靠的方法.

中国移动“终端大数据”中潜藏的秘密

- - 付亮的竞争情报应用
GSMA上海展,中国移动公布了“终端大数据”电信运营商坐拥海量的数据,如何用好是关键. 联通统计APP规律,移动统计终端特征,都是积极的探索. 这里挑出中国移动“终端大数据”最有意义的九图做一个简要的分析. 图一:用户份额十大品牌,世界已变,三星被小米和华为超过,诺基亚更跌倒了第七. 微評:在中国移动的用户中,苹果占15%的份额,明显领先于其他手机厂商.

探访谷歌数据中心内部的秘密:服务器自主设计

- - TechWeb 今日焦点 RSS阅读
谷歌技术员麦克巴哈姆安装一块主板(腾讯科技配图).   腾讯科技讯(林靖东)北京时间10月20日消息,据国外媒体报道,史蒂文列维(Steven Levy)是第一位有幸进入谷歌数据中心的记者. 他将自己的亲身经历娓娓道来,令读者有种身临其境的感觉.   列维写道:“谷歌数据中心门口有一个标识牌,注明如果没有戴耳塞或耳套就不得入内.

大数据的秘密——社会化媒体的开放之路

- - 微博之博
大数据可以说是近来年最火热的一个话题. 微博等社交化媒体因其独特的开放性特征,也成为大数据利用最令人关注的领域. 而这两年,随着微博、微信等社交平台商业化尝试的深入,及其结果的不尽如人意,大数据的利用成为了一个能否实现商业化实质突破的关键点. 而这个点的关键又在于 社交平台是否能做到对大数据的真正开放.

玩转数据中心:Twitter复制谷歌成名秘密武器

- - 博客 - 伯乐在线
[ 导读]谷歌和Twitter将数据中心当做一个超大型的计算机来看待,最终全世界也会这样做. Twitter的本海因德曼. 《连线》周二刊登了一篇署名为卡德梅茨(Cade Metz)的评论文章,借谷歌(微博)网络帝国最核心的软件系统伯格(Borg)分析了Twitter如何重建谷歌的秘密武器. 约翰威尔克斯(John Wilkes)说,加入谷歌就象是《黑客帝国》中的尼欧(Neo)吞下红药丸一样,那就是选择了觉醒.

被 Google Play 下架刷爆朋友圈:聊聊 SDK 采集数据的秘密

- - 极客公园-GeekPark
作者: 黑板报值日生 编者注:本文作者为「友盟+」高级产品研发专家马巍源,极客公园有删改并获得转载授权. 这两天,朋友圈里都在转载有 App 被 Google Play 下架一事,也许因为本人朋友圈内从事移动互联网数据行业以及各企业开发者较多,此事被炒得沸沸扬扬. 其实可以看出大家一直在讨论的仍是移动互联网圈的一个老话题:用户数据隐私与 SDK 收集用户数据的安全性.

专访 GrowingIO 创始人张溪梦,数据分析可以发现哪些“惊天秘密”

- - 雷锋网
张溪梦,GrowingIO 创始人兼 CEO,曾是一位脑肿瘤外科医生,随后“弃医从文”,选择投身互联网大潮. 在美国,他曾担任 LinkedIn(领英)美国商业分析部高级总监,曾被评为“世界前十位前沿数据科学家”. 2015年,他回国创业,建立 GrowingIO. 作为“增长黑客”理论在中国的实践者,他试图通过对用户行为的精细分析,对互联网产品进行针对性的快速迭代,从而使客户出现指数型的增长.

数据仓库

- Ran - Linux@SOHU
翻译:马少兵、曾怀东、朱翊然、林业. 尽管服务器存储、处理能力得到有效的提高,以及服务器价格的降低,让人们能够负担起大量的服务器,但是商业软件应用和监控工具快速的增加,还是使得人们被大量的数据所困扰. 在数据仓库领域中的许多系统管理员、应用开发者,以及初级数据库管理员发现,他们正在处理“海量数据”-不管你准备与否-都会有好多不熟悉的术语,概念或工具.

数据抽取

- - 数据库 - ITeye博客
转自: http://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E6%8A%BD%E5%8F%96#.   数据抽取是指从源数据源系统抽取目的数据源系统需要的. 实际应用中,数据源较多采用的是. 数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数 据库中抽取出来,并转换成自己的ETL 工具可以识别的格式.