大数据的方法:《证析》
每一个从事商铺零售的人都知道,店内商品的摆放是很有些学问的。这个领域还有本书《啤酒与尿布》来分析如何进行货品陈列。但即便如此,依然存在两个缺陷:其一,必须通过销售数据来进行指导,而那些逛店但却没有消费行为的,很难从他们身上获得些什么;其二,商铺内的陈设(不仅仅是商品包括装饰物)不可能每天都进行变化,物体的位移总是比较麻烦的。
但电子商务就不是。我几位从事化妆品电商的朋友就搞过这种事。2006年的时候,他们创建了一个化妆品售卖的网站,但有一个疑问:究竟是把货品的照片放在页面上部好呢还是把用户的评论放在照片上好。两种说法其实都有一定的直观上的理由:有的消费者可能会希望第一眼看到货品,但也有消费者希望第一眼看到其他用户的评价。最终他们决定:尝试不同的页面设置方式。
电商页面布局的调配可比商铺能货品位移来得方便多了,而且用户的访问行为(无论该用户是否购买)都是可以跟踪的。他们做了不少测试性的工作,最终得出个结论:需要先来一张照片,然后放置几条看上去言之有物的评论,然后再放更多的照片,最后再放其它评价——因为通过各种不同布局的结果表明,这种配置方法,对购买率的促进最大。这个结论不是拍脑袋拍出来的,也不是去搞什么网络调查,而是基于实实在在发生的行为数据所得。(这里必须要给个说明,这种方式是基于这个卖家卖的东西,并不见得适合所有电商)
也许我的这几位朋友压根就没有听说过“证析”,但他们的工作委实已经很接近证析。郑毅所著的《证析》,应该是国内第一本关于Analytics的中文专著,所谓证,即定量证据,也就是数据,所谓析,即分析。 分析数据以产生新的洞察,从而影响决策,提升劳动效率。而按照郑氏的说法,这些人做的就是“数据实验”——不过规模比较小,故而还只是接近证析。
郑毅如是写道, “人和组织将被分为三类:产生数据的人(有意识产生数据的人或无意中留下数据化足迹的人)、有办法搜集数据的人、有能力分析数据的人。第一类几乎包括世上所有利用网络或手机的人;第二类稍微少一些;第三类更少。我们可以将这三类称作新的‘数据阶级Data Class’”。信息时代最重要的财富是“信息”,在数字革命继续深化中,演变为“数据”,能收集且分析数据的群体,自然是这个社会金字塔尖上的人。
美国是开大数据研究先河的国度,在商业应用上,它到了什么程度呢:一种新的基于移动终端的广告模式已经出现。一个用户的手机总是离ta自己很近,因此可以通过判断手机的位置、移动路线、某地停留时间、手机中安装何种应用等数据,再结合这个手机本身的售价,就可以知道ta是一个什么样的人,对哪种广告会有兴趣。当这个用户在使用各种应用时,这些加载了这种广告的应用便向此人推送——注意,这个广告其实和应用本身没有多大关联,但已经和这个人很有关联了。
这也是证析,郑毅称之为“位置分析”。它不是拍脑袋或泛泛地说:哦,三高人群会对奢侈品感兴趣,它的背后是 大量数据的采集和数据建模,并通过实际行为(不是用户自己口头声称)做出预测。
证析的方法所要批判的,是两种我们过往常用的方法。其一是近乎建立在直观感觉上的判断,诚然,有些判断则是建立在所谓经验上。《证析》起手作者用了满满一章来嘲笑这种方法。不过客观讲一句,这种方法的好处是时间足够短;第二种方法则是问卷调研,相对第一种方法更有效些,但数据获取时间太长,且数据本身由于随机性问题会导致偏差。 但在网络时代,获取行为数据更快捷,自然证析的方法便有其用武之地了。
作者引用斯坦福大学的Paul Saffo在1997年的预言“很多公司会突然发现它们的主要业务就是数据”来论述数据的重要意义,网络时代的企业则看上去有先天之利。不过,作者同时也指出“企业现在拥有远比以其能力所能有效处理的更多的数据。” 2003年,Lexis Nexis发现了这个问题,并称之为“数据鸿沟Data Gap”:“企业搜集数据的能力已经远远超过了有效利用这些数据的能力。” 大量的网络公司,数据库里静静地躺着成堆的数据,却从来不曾想过,或者说,不知道该如何处理。
所以,《证析》这本书是大数据领域中的著作,这个领域中的中文著作其实不多,比如涂子培的《大数据》、舍恩伯格的《删除》、《大数据时代》,但它和这些书不太相同的是, 它更注重于具体的方法:如何采集如何建模,故而书的理工科痕迹很重,有不少专业的公式和图表,不是畅销书的写法,但就实际应用而言——特别对于有着大量数据明白数据之意义却不知如何是好的企业管理者,是不可多得的好书。
—— 人物 杂志约稿 ——