张溪梦:数据分析如何定义Linkedln
非常感谢!不好意思,稍微晚了一些,我叫张溪梦,现在在Linkedln任职,负责整个商业数据分析,我们的数据分析组织支持所有的与营收有关的业务。今天想跟大家分享一下在Linkedln过去的将近五年的过程中学习到的一些经验,希望大家多提宝贵意见。
在讲数据之前想跟大家简单介绍一下我自己,我在美国大约工作了十来年,一直在数据分析领域里面,在此之前,我在中国做了两年医生,但是因为特别喜欢电脑,特别喜欢计算机所以跑到美国来学了一个商学院,不知道为什么,今天就忽然间变成做大数据了。所以大家如果听见我讲了很多不靠谱的东西希望多多指导。
首先,LinkedIn是世界上最大的职业社交网站。到今天为止,有3.4亿用户,Linkedln的商业模式是2003年就已经确定了,非常非常简单三个最主要的步骤:第一步,用户使用和增长产生了大量的数据;第二步,通过这些海量的数据我们又开发了新的产品服务,还有解决方案,为下一轮的增长做更好的准备;第三步,这些新的产品新的服务新的解决方案,进一步刺激了用户的继续增长。所以大家可以看到在左边的,数据是Linkedln业务里面非常非常重要的一环,整个LinkedIn的产品都可以说是从数据里面迭代出来的。举一个例子,Linkedln在用户增长上我们有三种不同的产品关注点,第一个就是每个人用的简历,第二部分是用户的社交关系、社会关系,因为我们的创始人Reid Hoffman非常坚信社会关系就是最重要的生产力。第三部分也是我们最近在几年之内慢慢的引入的,就是关于职业的各种知识,这种产品体现在,比如每天在LinkedIn上如果大家使用的话可以看到很多人在发不同的信息,很多的非常有名的资深专业人士在分享他们的职业发展经验,这三块组成了我们的针对于非付费用户的主要的主打产品。很多人都问我说Linkedln怎么赚钱呢?Linkedln主要的营收主要来自三大块业务,人力、市场推广、销售,人力资源部分为Linkedln创造61%的营收,市场推广也就是广告还有现在越来越多的移动端的广告位Linkedln产生19%的营收。其余的销售和个人的订阅服务为Linkedln产生剩余的20%的营收,到今天为止的话大约每年Linkedln的业务营收在接近20亿美元区间左右。
下面我讲一下我们这个团队,从我个人来讲,我觉得非常幸运能为Linkedln这样的公司工作,大约四年半以前,我加入Linkedln数据科学团队,三年半之前转到新的组开始建立商业分析团队,当时就我一个人,到今天为止我发展出来了大约70人左右的团队,明年我们这个团队会增长到百人左右。想和大家分享的是,我们的团队增长速度是超过了整体公司的增长速度的,为什么呢?就是因为我们不断的为不同的部门,通过数据产生了很大的价值,包括销售、市场推广、产品、运营、客户服务、风控,各个不同的部门,直接间接的我们支持5000以上的Linkedln内部的员工。首先一个数据基础设施,其次商业智能也就是报表开发,再次数据科学和数据挖掘以及统计分析,加上若干分析的小组还有另外一个就是软件的研发。为什么我们要把五个部门完全做在一个组织里边,我下面就跟大家分享一下在过去的四年中我们学到了一个最重要的知识就是叫做端对端的数据分析。讲数据之前我想跟大家先分享一下什么是分析,因为如果我们只有数据不做分析的话基本上没有任何价值,数据分析其实很简单就是了解历史预测未来,以前李世民讲过一句话叫做以史为镜可以知兴替,以人为镜可以明得失,以铜为镜可以正衣冠,分析就是这样理解历史。比如说过去发生了什么事情为什么发生了。现在正在发生什么,未来会发生什么,前面这四步就是他们的关于用历史数据来预测未来但是只预测未来没有任何的就是相关的剩余价值的产生,我们必须在预测未来以后能够改变未来。真正的改变未来,这个过程就是我们产生很大的价值的一个过程。讲完了分析咱们看一看什么是大数据,实际上大部分人看到大数据是海平面以上的冰山,记得以前大约在三四个月以前我回过一次国,其中有几个朋友问我大数据是不是就是欺诈纯忽悠,基本没有看到什么价值。实际上大部分人看到大数据还不是海平面上面的这一块大部分人看到的大数据是下面的,比如说LinkedIn来说,我们LinkedIn的数据源是包含了全世界基本上很多公司的信息。Salesforce这个是我们的CRM的一个系统,然后我们还有内部的数据仓库,等等。在这张图上,我还可以再往上放100个以上在数据源的图标。它不是一个虚构的,这是事实。大家可以看到,这么杂乱那么巨大,但是复杂却并没有表现直接商业价值。真正的大家唯一感兴趣不是这个数据分析的大冰川,大家希望得到是冰茶、冰激凌、冰水。也就是分析的结果!
下面来讲讲我们的商业分析部门的基本战略和原则。 大约在四年半之前我加入Linkedln的时候,每天我基本上工作到每天一点到晚上一两点甚至四点钟,在第一年大约完成了500个左右不同的大的小的项目包括建模、报表,用数据回答问题,但是我们发现这个过程是非常缓慢和冗长的,但是当时我作为一个内部员工来说我支持大约200个内部员工,大家想一想一年做500个项目200个员工需要数据平均每年每个人只会被回答两次,这个不是数据驱动,甚至可以说完全非数据驱动,所以说我们建立了一个新的数据发展战略,这套战略的在三年半之前设好,然后一步步实施。
第一步就是打造一个非常坚实的数据分析平台和基础,这一步是最重要的一环。
第二步把整个的数据分析解决方案化,也就是我们内部有一个口号就是让所有的员工都能做到数据辅助决策驱动。
第三步我们不但要帮助内部的销售市场产品经理各种不同的人员我们还要把我们的数据分析做成数据产品让所有Linkedln的用户也能得到好处。
第四步我们发现我们要建造大量的数据分析的产品让他们之间产生很多的迭代。这也是我们讲的一个数据分析产品的生态圈的构建。
当时我们设置的这个是四步在今天来说的话我们基本上完成了前三步,现在正在建造第四步。这个金字塔理论, 我每次演讲我都要讲,不是实在没什么事可说而反复重复,这是我在过去的十年的职业生涯里做数据分析中学到看到最重要的一个结构。
我们来讲讲第个发展周期,也是其中最重要的一环。建造一个有效的基础。
传统的数据分析五个层面,第一步数据存储也就是数据仓库ETL等等这些系统的建造,第二步就是说传统企业它需要做各种不同的数据分析比如说回答内部的市场推广人员产品经理还有销售人员各种各样的问题,用数据来回答他们的问题,然后你再上面一步的话就是报表BI。 深度分析的话一般来说在现在为止分成三个不同的流派,第一个流派就是总传统的统计的流派,比如说银行、保险、零售在美国的话已经发展了接近20年甚至超过30年了一个时间段,而且非常成熟就是用来预测比如说哪个客户会买哪个客户会买多少,他的风险是多少这是第一个流派。第二个流派就是管理咨询,他们生产了很多的新的方法论。在过去的起码几十年之内,特别是战后,就是比如说这个战略性分析、策略性分析、竞争分析这个是管理咨询公司他们非常注重强调的。第三个流派也就是最近新兴的一个流派,即不是传统的统计方法,而是用大规模的迭代运算或用机器来模拟。比如说社交网络模型背后就要很多迭代的算法。我想跟大家讲一下,首先,这个传统5层结构忽略的最重要的一点就是业务基础。 分析师或者数据科学家他必须要对产品对客户对业务有一个非常深刻的理解,如果他对业务不理解的话很难做成有价值的分析这是第一步,就是必须要明白我们自己的客户和我们的产品,第二步在生产数据之前我们必须要做正确的数据标记和数据采集,如果没有正确的数据采集和数据标记,收集来的东西也就不会有太多的价值。 第三步,就是说好的数据分析师数据科学家他必须对硬件软件各种架构有非常深刻的理解,同时他能很有效的利用各种的工具这是我们要求我们内部的员工做到,再上一步是传统的分析师要做的工作,比如说做报表做分析,然后建模。 在Linkedln商业分析部有的一个不成文的规定,或者说是一个死的规定,生产出来的分析结果我们必须要确认分析的结果具有可执行性和可决策性。当然最后的目的不是为了做决策而做决策,而决策是要为了产生价值而服务。这就是我们内部一个金字塔的一个结构。
第二环:“金字塔”到“菱形”的转变。
以前在大约四年之前我们做了一个内部的调研,我们问每一个内部数据科学家我是当时的可能是第14个Linkedln的数据科学家。我们问了所有的做数据的Linkedln分析师和数据科学家。问你大部分的时间花在哪里,所有的人的回答是非常非常的一致,大约是85%和95%的时间花在金字塔的最下面的四层也就是说产品理解、数据标记、数据存储加上一些分析。但是大家都认为真正的价值是在决策这一块,改变才产生更多的价值,如果我们的时间全花在了数据的清洗和数据的整理上那么在很多时候不能为业务带来大规模的价值。 如何解决呢?我们想像出来一个新的模型,就是把金字塔不断变成一个菱形的结构的一个模式,这个模式并不表示我们不做以下的那些脏活累活。 这个模型最重要的一点就是我们要把大量的科技的技术不断的把金字塔的底部收缩和做小,做小的同时让人有更多的时间做更重要的工作,举一个例子大家可能刚才记得我们刚才说的第一年九个月,如果我今天跟大家说每天我们内部的分析系统大约有三千个员工平均每天回答十次以上的问题,那么它这个系统每天的工作已经超过了一年工作的几十甚至一百多倍,这就是我们今天在Linkedln内部为什么它能够大幅度的用数据来驱动业务的过程。很多人可能不太相信,大约需要一两个月的工作,今天来说在Linkedln内部也许只需要几十秒钟。一会儿我给大家举个例子我们怎么做到的。
第三个重要环节:就是数据产品化的过程。
比如说我们内部的话我们产生很多比如说针对销售针对市场推广很多的分析解决方案今天来说的话已经变成Linkedln的一个新的业务,这个功能就是我们在过去三年半左右的一个时间里边产生了一个叫魔术师的一个系统,我们的工程和产品团队采取了5%的功能放在网站上,目前已经开始销售了。在今天为止的话大约1%的营收来自这个新产品线。
第四环:数据产品化之后的话我们要建立什么呢,数据产品的生态圈,我们发现当开发第一个数据产品的时候需要花百分之百的努力,第二个第三个第四个,会相对来说越来越少,但它的价值会产生越来越多我给大家举个例子用明显的数据举个例子。
好咱们讲一讲社交网络吧,大家认为社交网络纯粹就是忽悠的请举一下手,没有人认为社交网络是忽悠那就太好了。(笑)。过去Linkedln从2009年 到今天我们营收大约增长了不到20倍,这个过程大家可以看到是从2010年开始的是成倍的增长而且速度慢慢在加快,其中一个原因就是因为我们在大量运用Linkedln内部的基于职业的社交关系数据驱动营收。 大家可以看到这个社交网络图谱。在这个里面有绿色、紫色还有中间的浅粉色,如果我跟大家说这个模型只用了一个变量就是人与人之间的关系,紫色的就是中间的是他们的CEO,紫色下面的就是他们的运维和HR大家相信不相信这是真的,再下一步我们通过这张社交图我们迭代出来他们内部可能的组织结构,当我们明白了一个公司的组织结构之后话我们就开始做下一个产品,数据驱动的销售方案,传统的销售人员会问传统的几个问题,很简单,第一个问题我需要向哪个公司销售Linkedln的产品,它会花多少钱?我得到一个名单400个公司到底哪个公司价值多少钱是第一个问题。 第二个问题这个公司里谁是决策人,谁能让我把这个产品销售给他。第三步,这个决策人我知道了如何我才能和他接洽呢?比如说我在LinkedIn认识的人中几百个人都认识这个主管,谁是和他关系最近的人?第四个问题,我们Linkedln内部以前的话我们大约200个销售人员,今天的话大约几千人以上,哪个销售员工和这个客户和这个公司的关系最近?第五步我们到了那里讲一个什么样的故事? 以往的话需要准备这样的数据,大家拍脑子、拍胸脯、拍大腿、拍键盘,也大约得拍两个星期到八个星期才能准备一个分析,今天来说再Linkedln的话我们可以很简单,就是用Linkedln的数据我们知道这个公司的人员增长是多少,流失率是多少他招的人从哪儿来他的人都到哪里去了,同时我们通过分析Linkedln职业网络,找到真正的决策人。我们发现真正买Linkedln的产品的人不是他们那边的HR的老大,一般来说的话是他的一线的经理同时还在用Linkedln的人,这个是我们当时增加了好几倍转化率的一个原因。下一步的话我们分析整个的Linkedln内部的销售人员谁和这个人的关系最近,谁和这个人通过他的介绍的关系来和这个人进行接洽,这是另外一个利用社交网络的关系,最后一步的话就是把我刚才说的所有的东西,公司、接洽的人还有它的社交关系所有的东西通过一个按钮做成一个自动化的,但是这并不是结束。在今天来说的话,我们已经把所有的这个按钮都去掉,而把它演变成了一个数据驱动的信息服务。比如说给大家举个例子,假设公司A的HR的主管离职,那么我们立刻会产生两条数据驱动信息,发给我们的客户经理,通知他这个客户离职以后那么他这个账户可能会流失,第二步的话就是这个客户离职,但加入新的公司后。他又给Linkedln带来新的潜在客户。所以说他同时会驱动两条数据,一部分是减低客户的流失,另外一个是增加了用户的增长。这就是一个如何用数据来驱动销售的例子。大家仔细看一看技术细节,(见图),实际上整个的过程就是把数据的金字塔从巨大无比变成非常微小的过程。 就是大数据最后变成小数据的过程。
这就是今天我给大家分享的主要的部分,因为时间的关系,我只想说最后一点,也是数据分析中最重要的一点。我觉得不是技术力,我觉得最重要的一点是人的想象力,和他是不是对这个东西有信念。正如一个很老的美国电影《星球大战》,当中提到的“You would fail if you think it is impossible.” 实际上数据分析本身来说产生的价值的大小完全取决于我们有没有这种信念和想象力,这种想象力决定了最后的价值的产生,谢谢大家!