解读阿里巴巴的数据野心

标签: 阿里巴巴 数据 | 发表时间:2013-04-04 18:08 | 作者:虎嗅网
出处:http://news.paidai.com/

      去年9月马云第一次把阿里巴巴的未来公开归结成平台、金融、数据三步走时,当即被市场理解的是平台,随后是金融。但阿里在数据上的企图心,相比前两者却有点被低估。

      从几个星期前,阿里巴巴斥资七八千万美元收购友盟的传闻传出开始,虎嗅就隐隐感觉,阿里巴巴不想掩饰自己在数据方面的野心了。2013年4月1日到3日,在阿里巴巴分拆成2个事业部2个多月后,虎嗅在杭州跟阿里巴巴的管理层密集地聊了一圈,更加确认了这个判断。

数据布局

      “阿里本质上,未来会是一家数据运营公司。”集团首席战略官曾鸣说。在新的公司级战略里,阿里巴巴正低调却尽一切可能地在数据上布局:

      1 、候任CEO熟悉数据业务。陆兆禧接任马云担任阿里集团CEO分两步:1、 熟悉数据业务,2 、当CEO。在2012年7月,他出任阿里集团新设的首席数据官(CDO)。在2013年1月阿里分拆成25个事业部时,他分管的又是数据平台事业部、信息平台事业部、云OS事业部这些底层基础设施平台。

      2 、筹建小微金融集团,准备进一步收集金融服务数据。

      3 、对平台内自有的消费数据,设立数据平台事业部、以及横跨其他事业部的数据委员会,由首席商业智能官车品觉领头,进行数据挖掘、分析、形成产品,并帮助集团各个事业部打通底层的数据基础设施平台。车品觉举例说,阿里现在已经在内部使用的一款数据产品“黄金策”,可以提供的具体功能是:

用六七百个变量来衡量消费者的数据。如果问它:在上海有两张信用卡,并且用android手机的人是多少?它能回答说是200万人。我再问其中女生的主要年龄层分布?它能说大概是20到30岁。我还问两张和三张信用卡的人差异在哪里,它会发现三张卡的不如两张卡的人有钱。

      4 、陆兆禧出任集团CDO之后,牵头在阿里内部搭建了一个开源的数据管理平台(其他采访源告诉虎嗅:这是马云钦点的项目),让各个事业部既保持独立性,又能实现底层的数据跟架构的共建共享。

此外,阿里内部还在玩的一个东西是个互联网化的SNS工作平台,所有员工在互动的同时都可以给对方一个点评——我喜不喜欢你,我觉得你这件事做得好不好——一年下来,每个员工都可以积累很丰富的可视化的盘点跟考核数据。阿里希望这个工作系统未来跟外部的客服系统打通。

      5、 怀着“宁可错收一千也不放过一个”的心情,跟外部合作与收购,特别是在移动方面:

      -比如,以8000万美元的最终价格收购友盟这个移动应用数据统计分析平台(此事未经阿里与友盟确认,乃坊间传言,八九不离十),同时还在跟另一家同类平台TalkingData的团队探讨收购可能性。

      阿里虽然分拆后有独立的无线事业部,其他事业部自己也都有移动尝试,但还没涉及应用商店这一块。所以友盟、TalkingData这类平台能够收集和分析的新增用户数量、激活用户数量、用户在应用内的一些行为数据,阿里缺。

      -比如,拉上银泰、复星、富春、四通一达、顺丰及相关资本和金融机构,首期投资1000亿元构建“中国智能物流骨干网”,希望在8到10年内建立一个能支撑日均300亿元(年度约10万亿)网络零售额、24小时内货达全国任何地区的智能物流骨干网。

      按集团秘书长郭靖的说法,这个骨干体系,可以让企业从互联网实时、准确的拿到需求数据,生产商品,分别把这些货预先放到骨干仓里,提高中国物流社会化的效率和成本。

      -比如,跟新浪微博反反复复却始终不肯放弃的入股谈判。新浪微博的媒体数据、社区数据和导购数据,阿里缺。

      -再比如,更早的2011年以前,阿里巴巴曾收购通用论坛程序提供商PHPWind、域名服务商万网、互联网数据分析平台CNZZ,就已经是在尝试掌握大部分中国互联网的底层数据。

      抓到这些数据后,阿里巴巴能干什么?

      阿里之外,某位业内人对虎嗅说,“阿里是从电商切入数据。未来阿里巴巴的数据野心非常非常大,希望成为下一级互联网的入口。它希望建立囊括所有与消费相关的数据平台,包括实体类商品消费数据、服务类商品消费数据、金融相关数据等等……希望自己能够集合所有最有价值的数据,然后在以自己的数据平台为中心建立Data Exchange Center。也就是说,谁想获得数据,上我的平台来,要么用货币来换,要么用数据来换。说穿了就象它们今天垄断电商一样。”

      她又补充道:“百度其实是有资源与阿里巴巴一拼的,但是,对数据的理解和战略,远远赶不上阿里巴巴,百度还没有将数据上升到公司级战略,此事还未进入李彦宏的法眼。”

      如果说百度没醒转过来,那我们看看谷歌。谷歌从搜索到Android到地图到看上去不太靠谱的无人驾驶车与谷歌眼镜,其核心也是数据的收集、分发与流转使用。谷歌从搜索切入做数据,阿里从电商切入做数据。殊途同归。

      当然,阿里方面是不愿太去张扬自己在数据方面的全网野心。他们说得更多的是:怎么用数据为阿里的生态、尤其是商业生态服务。我们就顺着阿里目前的口径来看下:

      1、先看25个事业部的拆分。本质上它们分成三类:

      上层的垂直业务:淘宝、天猫、聚划算、本地生活、航旅等等,这些事业部有特定客户人群和特定市场价值。

      下层的基础设施平台业务:云OS、支付、物流等等。

      中间的共享业务平台:共享业务、商家业务、阿里妈妈等等,把上面的垂直业务里可共享的的部分尽可能抽象出来,同时又跟下面的技术设施打通。

      2、支撑上述小系统、小平台自行循环生长的,就是数据。

      有段时间马云爱抖一个包袱:全国最爱买比基尼的地区是内陆大省新疆,这个发现出自淘宝购物数据分析。阿里认为,平台内的数据可以做更多。

      最直接的例子是,阿里日均能积累超过1000万个包裹的物流路由数据和重要节点的揽货、分捡、派送和末端递送的数据,这些数据将形成物流数据服务产品,从4月起面向国内前十大快递公司的老板发送。

      淘宝负责人张宇(语嫣)还提到了另一种可能:“微博、微信现在都是很多人来制造信息、订阅信息。每个人都找自己想要的,也为生态圈贡献东西。这个就是正循环。淘宝也想找到这个正循环。”

      此外,现在舆论相当关注的阿里金融,其核心也是数据。正如虎嗅此前发表的《天下网商》这篇文章说:“关于阿里金融的讨论,无论认定其未来会坚持走“小贷”路线,还是成立“担保公司”转而争取银行牌照,一个基本的背景条件都不会改变,那就是海量交易数据这座金矿。”

车品觉问答

      在跟虎嗅细聊时,负责数据业务的首席商业智能官车品觉谈到了阿里成为数据公司后可能的产品形态、如何将数据产品化等好玩的话题:

      虎嗅:阿里未来要成为数据公司,可能的产品形态是什么?

      车品觉:1, 直接把数据用在产品或平台上,产生价值、卖钱,比如精准营销、去哪儿。2, 以数据交易、数据服务作为经营模式,所谓的Data Market Place。但这个方向是很遥远的,用数据交换的方法来拿到回报还是需要一段时间,目前没有成功案例。

      虎嗅:除了自身平台上的消费类数据,阿里还对哪些类别的数据感兴趣?

      车品觉:我去拿别人的数据一般有两个可能性,一个可能性是找参照物;一个是知道1+1>2。在我今天的拼图里,我知道我缺一个碎片,等我拿到这个碎片,我会知道整个数据会是怎么样的。

      我其实是阿里数据的使用者,对外部数据项目的收购决策不在我这里。收友盟,我猜应该是为了它对整个移动端数据的理解。在数据上来讲,我们最注重的东西是找参照物,找不到参照物的数据是没意义的。比如说,我的平台上用iPhone的人很多,想知道别的平台是不是也很多。

      阿里的未来会是一个数据公司。用周围的数据来重新定义我今天的数据。举个例子,我们要是想知道一个用户是大学生,其实不一定看淘宝数据来推测,通过看他送货地址是不是大学就能知道。但你怎么知道一个地址就是大学?阿里是没有大学地址的。所以你要是有了全中国的大学门户地址,就是用外面数据来解决里面数据的精确度问题了。另外,如果你用了安居客的租金数据知道用户所在的地段租金多少,你可能能知道这个人有没有钱。结合一些本地数据,你还能知道他的生活圈子。

      我们现在有时是为了解决问题,才去找一些可以解决问题的数据。像集团一直在说的数据运营、数据化运营、运营数据,这些概念是螺旋交替的关系——你更懂得数据化运营就更懂怎么运营数据,更懂怎么分享给别人用。

      虎嗅:你们所构想的这个数据平台,存在无法得到的数据黑洞吗?

      车品觉:数据最大的黑洞就是数据的稀缺性,你的数据再大,用一个放大镜看进去它都是有洞的。现在阿里对性别的覆盖率也还是40%。这对数据科学来说怎么用这40%的性别覆盖,来估计另外60%的性别,并且精确度达到90%以上,就是重要的课题。

      数据的玩法是以有限的东西来估计整个饼图上的东西。阿里底下有非常多的关系数据还没挖清楚,但如果挖清楚了会有非常多的东西能干。世界是个大文档的话,每个人都会建立一块,如果一个人全都建完了,那就不好玩了。

      虎嗅:数据委员会近期的工作重点是什么?

      车品觉:阿里成为一个数据公司之前,它必须要干的是要一帮人先进来把底层的东西做成。今年数据委员会有三个很难的基础大山要翻过去:

      1 数据安全。数据开放给更多人去用才会更有价值,但同时安全也存在极大压力。谁应该看什么不看什么。怎么保护个人、商家、公司的隐私,在上一中前提下开放数据给分析师来用。

      2 数据质量。控制数据质量为什么难?下游的质量要从上游来看。生产一组数据出来时,如果不给出一些标签,没人知道这个数据是怎么来的。要保证数据本身在源头是干净的,否则垃圾进去垃圾出来。

      3 数据化运营。真正要做数据化运营,应该是80%懂商业的人来用数据解决问题,20%的人保证让数据可用。这个要做的是组织文化。



相关 [阿里巴巴 数据] 推荐:

阿里巴巴开源项目: 阿里巴巴去Oracle数据迁移同步工具

- - agapple
   08年左右,阿里巴巴开始尝试MySQL的相关研究,并开发了基于MySQL分库分表技术的相关产品,Cobar/TDDL(目前为阿里云DRDS产品),解决了单机Oracle无法满足的扩展性问题,当时也掀起一股去IOE项目的浪潮,愚公这项目因此而诞生,其要解决的目标就是帮助用户完成从Oracle数据迁移到MySQL上,完成去IOE的第一步. .

解读阿里巴巴的数据野心

- - 派代网 - 资讯
      去年9月马云第一次把阿里巴巴的未来公开归结成平台、金融、数据三步走时,当即被市场理解的是平台,随后是金融. 但阿里在数据上的企图心,相比前两者却有点被低估.       从几个星期前,阿里巴巴斥资七八千万美元收购友盟的传闻传出开始,虎嗅就隐隐感觉,阿里巴巴不想掩饰自己在数据方面的野心了.

阿里巴巴数据产品经理工作(总结篇)

- - 人人都是产品经理
PD(指产品经理,下同)本身就是在做牛做马,关系圈异常复杂. 以下是我用PPT绘制的数据产品经理关系圈. PD:对于WEB产品设计人员而言,它的意思是“产品设计人员”,即produce designer. PD:在IT企业中,一般是Product Director(产品主管)或Project Director(项目主管)的意思.

阿里巴巴利用数据驱动增长

- - IT瘾-bigdata
如果数据是新石油,那马云就是新一代洛克菲勒. 他领导的中国电商阿里巴巴正发展成为一家大型数据综合企业. 如果数据是新的“石油”,那英语教师出身的中国首富马云(Jack Ma)就是新一代的约翰•D•洛克菲勒(John D Rockefeller). 像洛克菲勒的标准石油公司(Standard Oil)一样,马云的阿里巴巴(Alibaba)是一家利润丰厚、增长迅速的企业.

大数据时代来临,首次披露阿里巴巴的“数据闭环”

- - 36氪 | 关注互联网创业
编者按:本文作者Sean,支付行业人,微博[email protected] 打扰先生. Sean未来也会就互联网金融话题给我们写专栏. 今日关于“大数据”的讨论达到了一个高峰,数据就是未来已经不置可否地成为了互联网企业的未来新战略发展的中心. 什么是大数据,大数据是如何产生价值的,大数据是无所不能的吗,应用边界在哪里. 这些问题,似乎人人都有一个模糊的概念,但始终没有一个统一的答案.

2017双11技术揭秘—阿里巴巴数据库技术架构演进

- - IT瘾-geek
摘要: 每年电商双11大促对阿里技术人都是一次大考,对阿里数据库团队更是如此. 经过9年的发展,双11单日交易额从2009年的0.5亿一路攀升到2017年的1682亿,秒级交易创建峰值达到了32.5万笔/秒. 支撑这一切业务指标的背后,是底层技术体系的一次次迭代升级. 每年电商双11大促对阿里技术人都是一次大考,对阿里数据库团队更是如此.

阿里巴巴开源项目:分布式数据库同步系统otter(解决中美异地机房)

- - agapple
   阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,同时为了提升用户体验,整个机房的架构为双A,两边均可写,由此诞生了otter这样一个产品.    otter第一版本可追溯到04~05年,此次外部开源的版本为第4版,开发时间从2011年7月份一直持续到现在,目前阿里巴巴B2B内部的本地/异地机房的同步需求基本全上了otte4.

阿里巴巴提交IPO招股书:核心数据全曝光(附:马云上市内部邮件)

- - 穿过记忆的河流
阿里巴巴提交IPO招股书:核心数据全曝光(附:马云上市内部邮件). 2014-05-07 更多公司请戳>> 10%公司. 文|综合华尔街日报、新浪财经等. 当地时间5月6日,中国互联网巨头阿里巴巴集团盘后正式提交在美国进行首次公开募股(IPO)的计划,这可能是历史上最大规模的IPO之一. 阿里巴巴提交的IPO申请文件显示,该公司去年拥有2.31亿活跃买家.

阿里巴巴开源项目: 基于mysql数据库binlog的增量订阅&消费

- - zzm
   早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求. 不过早期的数据库同步业务,主要是基于trigger的方式获取增 量变更,不过从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务,从此 开启了一段新纪元.