@车品觉:大数据如何落地

标签: 深度观察 大数据 | 发表时间:2014-06-23 15:34 | 作者:Editor
出处:http://madbrief.com

@车品觉:大数据如何落地

大数据的应用既不便宜,也存在一定的缺陷,更未能充分提升商业的价值,反而大数据其实更需要企业家、产品经理等管理精英们的创造性思维,用数据的力量做出确切的关联和相互参照,使大数据能真确地产生物有所值的商业效应。

自从舍恩伯格的《大数据时代》畅销以来,“大数据”赢得了难以想象的关注度。但同时,从实务的角度来看又有一点难以落地的感觉。这其中的原因,在于很多公司仍然没有建立起数据的收集到应用的基础设施包括工具和人才配置,尤其是在实战层面上未对大数据有较为客观和理智的认知,吹捧它的人认为它无所不能,在各种场合反复讲解一些高大上的案例,而质疑它的人则认定现有结构化数据就能说明关键问题,从而对其不以为意。事实上,大数据的应用既不便宜,也存在一定的缺陷,更未能充分提升商业的价值,反而大数据其实更需要企业家、产品经理等管理精英们的创造性思维,用数据的力量做出确切的关联和相互参照,使大数据能真确地产生物有所值的商业效应。

不要迷信大数据

几乎每个礼拜,我都要面试很多数据科学家,以及不少从业者。例如,在招聘时,我问应聘者的第一个问题一般都是“在你心里什么是大数据”。回答显示,原来业内的认知分歧丝毫不比外行少——至少有一半受访者或应聘者对“大数据”这个概念根本就不以为然,而是更关注有价值的数据、数据能产生什么价值。换言之,在部分人看来,“大数据”本身就是一个伪概念。我问的第二个问题是,目前为止,你做得最好的大数据案例是什么?他们的回答都有个共同点,就是用大数据来处理数据的稀缺性。比如,北京的空气质量监测站是有限的,其数据对于监测站附近范围的质量呈现是比较准确的,但其余地区的质量数据是非常稀缺的。换言之,大数据能帮我们增加未知部分的准确度、精确度。

有很多人讨论大数据与小数据的关系。其实,这个问题衍生自大数据如何落地。应该说,大数据可以说明商业运营者找到大致的方向,但真正落地到商业操作,反而不如小数据更有用、更有效。比如,很多运营者宣称自己的注册用户是多少量级的,但是 1 亿个注册用户的基础数据,不如一千万个活跃用户完整的行为数据更具有价值。对于初创企业进行客户探索、发现和验证时,几百个甚至几十个顾客、用户的完整数据比你得到千万级数据更有价值。也许正是因为数据量虽大,但每个数据单元都出现了断裂或遗漏,导致大数据的价值难以被挖掘出来。

因此,应用大数据的能力之一就是把数据变小的本领。在构建数据模型时,你需要的样本其实不是千万,甚至不是面面俱到的数据,而是比较敏感的数据指标。这对数据收集和分析人员是巨大的挑战。实际上,大数据的应用和落地,也要以数据的细分为基础。例如某电商顾客的真实性别就不一定与购物的性别偏向一致;再比如,关键词搜索量,看北京、南京各多少,而不是笼统地说增长了多少。当我们用放大镜细查大数据时,会发现有不少的“断链”和数据欠完整。从某种意义上说,大数据没有真正的全面数据,差别只在于你放大镜的倍数。即使基于大数据进行决策,也仍然有猜测和赌博的成分在其中。所以,我反而主张,大数据和小数据应该可以互为作用, 而非比较两者谁更强。

目前,大数据应用里有个怪现象,就是有什么数据就收集什么数据,至于将来有什么用,一概不知,或者抱着“先收集再说,将来总有用”。我的建议是,从问题、愿景导向来收集数据。一方面,数据的收集、存储备份等成本都不低,另一方面,数据的价值也可能衰减。

其次,在我看来,以用户为核心的 KPI 能实现与客户的行为点对点连通,是未来发展的大趋势。传统的用户价值是以利润贡献为核心指标来衡量的,而在大数据时代,客户关系的管理可能就不一样了。例如,我要知道一个客户一个月内到淘宝多少次,不管他是否购买,要看他与我们公司的关系到底怎么样。同学举行婚礼,礼金重才是好哥们?显然不是这样的。一个礼拜,用户花在视频网站、微博等等的时间是多少。未来竞争的是用户的注意力。在大数据的创新下我们是否可以更容易得知你得到了多少的用户注意力呢。

公司要建立起数据收集系统,更重要的是要建立起跟踪数据质量的监控,而且一些关键数据要寻找多个源头,一方面确保“鸡蛋不在一个篮子”,另一方面要相互比对、印证。对于实际运营的企业来说,数据必须有连贯性,而且要确保数据的真实性,因为如果数据的收集或获取本身就错了,那么后边的分析和决策无疑就建立在沙滩之上,“根基不牢,地动山摇”。

就现状而言,大数据技术更多地用于推荐和营销,不是因为它更容易,而是因为它容错的空间更大。比如,推荐系统给出了顾客不喜欢的推荐,大不了重新推荐,但一旦上升到直接解决问题层面,其容错空间就大大缩小了。例如,利用大数据技术来观测空气质量,错了也不会有大的影响,然而如果把这个指数和某个商业运营挂钩,就不是小事了。更何况如果数据是用在一部无人驾驶的汽车上,不准确地运用数据的后果更是不堪设想。人们很喜欢谈论沃尔玛“啤酒与尿布”的故事,但是其相关性只发生在周五下班后,而且一年后这个关联不再出现了,因此,需要数据部门的不断跟踪,不能一条经验法则走到黑。尤其是对数据的精确性要求较高时,数据的持续跟踪与多源比对就显得非常重要。也正是这个原因,导致大数据的应用还停留在比较肤浅的层次或者压根就飘在空中。

作为创新的赛马场

有人认定大数据具有前景,于是试图利用先前收集的数据开创新的事业或业务,但目前为止我还没有看到特别成功的例子。相对而言,在拥有大数据的公司之内应用大数据比没有大数据的公司可能要容易一些。其优势是,他们对数据比较熟悉,知道其中的数据定义和数据搜集中的难点和局限性,从而比外部合作者用得要好。当然创新是否容易被旧有文化所限制, 又另作别论。阿里金融的成功,是在游离母体与靠近母体间找到了一个动态的平衡,克服了外来数据所带来的困扰。例如,产品设计改版使得数据变化了,但数据生产方却未必有告知的义务。因此,数据使用者要监控数据源是否稳定。这也与数据公司的既有文化和业务范畴有关,一家善于构筑堡垒的公司即使有无可比拟的数据资源,很可能宁愿等着数据价值的衰减,也不愿意将其有效利用。

其次,应用大数据开创新业务的能力问题,许多业务运营者可能搜集了大量的数据,但能否挖掘出“原业务”以外的创新性业务,到目前为止仍然是一个巨大的挑战。商业创新有时候表现为不可思议的关联,但总体而言,由于这种突破性的关联带来创新业务的概率是非常小的。

传统企业怎么办

到目前为止,我们在谈论大数据的时候,在根本上忽略了一点,很多企业本身是有其架构的,不会因为大数据就立即变得不一样了。很多公司连信息(information)都未打通,是堵塞、零散的,更不要说大数据的应用了。大数据作为一种新的运营理念和方法体系,要想嵌入到公司里,必然要经历一个新事物在旧公司的所有困难。比如,想要的数据无法采集,很多公司口口声声说“以客户为中心”,但关于客户的数据要回流到公司核心决策里却不容易,其统计口径与企业 KPI 不一致。这些虽然与今天我们所说的大数据没有关系,是数据化,却是大数据的基础。如果在一家公司里,想要看的数据没搜集,或流动不顺畅,却被大数据所迷惑,那是本末倒置。

但这不是说,传统企业可以对大数据应用置若罔闻。对当下的企业来说,要反躬自问,有没有一些数据,今天不搜集,将来会后悔?如果这些数据被对手搜集到,会怎么样?要做到这一点,就要对公司一年后、两年后或半年内的方向非常清楚,或者至少有个概念。实际上,我们的互联网上充斥很多与企业相关的信息或数据,但未得到足够的重视,这主要是观念问题,而不是能力问题。

今天人们所说的信息技术(IT),其实越来越趋向于数据化,商业智能要把销售数据、营销数据和消费者数据打通,而不是各自孤立。传统企业高管应该重视数据的关联应用,至少不能只满足于财务报告的数据,不要容忍人力资源部连主动离职率与服务水平都关联不起来洞察。要有步骤地构建起数据的搜集系统,培训对数据高度敏感的人员。当然,从一种有效的策略来说,先把既有的数据用好,比盲目推进大数据要明智得多。你要重新定义你的数据框架来解决存在的问题。比如,很多企业都开启了公司微博,其测定效果是转发多少、评论多少。但实际上,你要细分你的数据,进一步厘清谁、什么样的转发和评论才是有价值的,还要和相似的公司微博进行对比。

传统企业究竟是建立起自己的独立的搜集系统,还是使用别人提供的数据?我认为要兼有,既要有侧重地独自搜集,也要多源化地获取数据,尽力排除各种数据在搜集过程中形成的偏差,这既是一个技术问题,需要数据人员付出艰辛的努力,也是一个战略问题,需要回到前文所述的小数据问题。

本文来源: 阿里商业评论 作者:车品觉,《决战大数据》作者、阿里巴巴集团副总裁、数据委员会会长。

相关 [大数据] 推荐:

谈大数据(2)

- - 人月神话的BLOG
对于大数据,后面会作为一个系列来谈,大数据涉及的方面特别多,包括主数据,数据中心和ODS,SOA,云计算,业务BI等很多方面的内容. 前面看到一个提法,即大数据会让我们更加关注业务方面的内容,而云平台则更多是技术层面的内容. 对于大数据会先把各个理解的关键点谈完了,再系统来看大数据的完整解决方案和体系化.

大数据之惑

- - 互联网分析
算起来,接触大数据、和互联网之外的客户谈大数据也有快2年了. 也该是时候整理下一些感受,和大家分享下我看到的国内大数据应用的一些困惑了. 云和大数据,应该是近几年IT炒的最热的两个话题了. 在我看来,这两者之间的不同就是: 云是做新的瓶,装旧的酒; 大数据是找合适的瓶,酿新的酒. 云说到底是一种基础架构的革命.

白话大数据

- - 互联网分析
这个时代,你在外面混,无论是技术还是产品还是运营还是商务,如果嘴里说不出“大数据”“云存储”“云计算”,真不好意思在同行面前抬头. 是千万级别的用户信息还是动辄XXXTB的数据量. 其实,大数据在我的眼里,不是一门技术,而是一种技能,从数据中去发现价值挖掘价值的技能. ”当我掷地有声用这句话开场时,正好一个妹子推门而入,听到这句话,微微一怔,低头坐下.

交通大数据

- - 人月神话的BLOG
本文简单谈下智慧交通场景下可能出现的大数据需求和具体应用价值. 对于公交线路规划和设计是一个大数据潜在的应用场景,传统的公交线路规划往往需要在前期投入大量的人力进行OD调查和数据收集. 特别是在公交卡普及后可以看到,对于OD流量数据完全可以从公交一卡通中采集到相关的交通流量和流向数据,包括同一张卡每天的行走路线和换乘次数等详细信息.

全球10大数据库

- - 译言-电脑/网络/数码科技
原文: Fiorenttini   译者: julie20098. [非商业性转载必须注明译者julie20098和相关链接. ,否则视为侵权,追究转载责任. 世界气候数据中心:气候全球数据中心, 220TB 的网络数据, 6PB 的其它数据. 国家能源研究科学计算中心,有 2.8PB 容量.

谈大数据分析

- - 人月神话的BLOG
对于数据分析层,我们可以看到,其核心重点是针对海量数据形成一个分布式可弹性伸缩的,高查询性能的,支持标准sql语法的一个ODS库. 我们看到对于Hive,impala,InfoBright更多的都是解决这个层面的问题,即解决数据采集问题,解决采集后数据行列混合存储和压缩的问题,然后形成一个支撑标准sql预防的数据分析库.

大数据的一致性

- - 阳振坤的博客
看到了一篇关于数据一致性的文章:下一代NoSQL:最终一致性的末日. (  http://www.csdn.net/article/2013-11-07/2817420 ),其中说到: 相比关系型数据库,NoSQL解决方案提供了shared-nothing、容错和可扩展的分布式架构等特性,同时也放弃了关系型数据库的强数据一致性和隔离性,美其名曰:“最终一致性”.

大数据Lambda架构

- - CSDN博客云计算推荐文章
1 Lambda架构介绍.          Lambda架构划分为三层,分别是批处理层,服务层,和加速层. 最终实现的效果,可以使用下面的表达式来说明. 1.1 批处理层(Batch Layer, Apache Hadoop).          批处理层主用由Hadoop来实现,负责数据的存储和产生任意的视图数据.

大数据公司Amazon

- - 36氪 | 关注互联网创业
说到 Amazon,它通常给人的印象是一家典型的电商公司——创办于1995年,靠在线书籍销售业务起家,发展至今也已颇具规模. 近日,TechCrunch作者Alex Williams撰文称,Amazon其实并非一家贸易公司,而是一家大数据公司. 联想到Amazon CEO Jeff Bezos曾说过的一句话:“企业家应该愿意在很长一段时间内承受误解的目光.

大数据架构hadoop

- - CSDN博客云计算推荐文章
摘要:Admaster数据挖掘总监 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求. 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求.