大数据的方法:《证析》

标签: 观点•专栏 话题投稿 选读 Overview 读书 | 发表时间:2013-03-01 15:39 | 作者:魏武挥
出处:http://www.tmtpost.com

每一个从事商铺零售的人都知道,店内商品的摆放是很有些学问的。这个领域还有本书《啤酒与尿布》来分析如何进行货品陈列。但即便如此,依然存在两个缺陷:其一,必须通过销售数据来进行指导,而那些逛店但却没有消费行为的,很难从他们身上获得些什么;其二,商铺内的陈设(不仅仅是商品包括装饰物)不可能每天都进行变化,物体的位移总是比较麻烦的。

但电子商务就不是。我几位从事化妆品电商的朋友就搞过这种事。2006年的时候,他们创建了一个化妆品售卖的网站,但有一个疑问:究竟是把货品的照片放在页面上部好呢还是把用户的评论放在照片上好。两种说法其实都有一定的直观上的理由:有的消费者可能会希望第一眼看到货品,但也有消费者希望第一眼看到其他用户的评价。最终他们决定:尝试不同的页面设置方式。

电商页面布局的调配可比商铺能货品位移来得方便多了,而且用户的访问行为(无论该用户是否购买)都是可以跟踪的。他们做了不少测试性的工作,最终得出个结论:需要先来一张照片,然后放置几条看上去言之有物的评论,然后再放更多的照片,最后再放其它评价——因为通过各种不同布局的结果表明,这种配置方法,对购买率的促进最大。这个结论不是拍脑袋拍出来的,也不是去搞什么网络调查,而是基于实实在在发生的行为数据所得。(这里必须要给个说明,这种方式是基于这个卖家卖的东西,并不见得适合所有电商)

也许我的这几位朋友压根就没有听说过“证析”,但他们的工作委实已经很接近证析。郑毅所著的《证析》,应该是国内第一本关于Analytics的中文专著,所谓证,即定量证据,也就是数据,所谓析,即分析。 分析数据以产生新的洞察,从而影响决策,提升劳动效率。而按照郑氏的说法,这些人做的就是“数据实验”——不过规模比较小,故而还只是接近证析。

郑毅如是写道, “人和组织将被分为三类:产生数据的人(有意识产生数据的人或无意中留下数据化足迹的人)、有办法搜集数据的人、有能力分析数据的人。第一类几乎包括世上所有利用网络或手机的人;第二类稍微少一些;第三类更少。我们可以将这三类称作新的‘数据阶级Data Class’”。信息时代最重要的财富是“信息”,在数字革命继续深化中,演变为“数据”,能收集且分析数据的群体,自然是这个社会金字塔尖上的人。

美国是开大数据研究先河的国度,在商业应用上,它到了什么程度呢:一种新的基于移动终端的广告模式已经出现。一个用户的手机总是离ta自己很近,因此可以通过判断手机的位置、移动路线、某地停留时间、手机中安装何种应用等数据,再结合这个手机本身的售价,就可以知道ta是一个什么样的人,对哪种广告会有兴趣。当这个用户在使用各种应用时,这些加载了这种广告的应用便向此人推送——注意,这个广告其实和应用本身没有多大关联,但已经和这个人很有关联了。

这也是证析,郑毅称之为“位置分析”。它不是拍脑袋或泛泛地说:哦,三高人群会对奢侈品感兴趣,它的背后是 大量数据的采集和数据建模,并通过实际行为(不是用户自己口头声称)做出预测。

证析的方法所要批判的,是两种我们过往常用的方法。其一是近乎建立在直观感觉上的判断,诚然,有些判断则是建立在所谓经验上。《证析》起手作者用了满满一章来嘲笑这种方法。不过客观讲一句,这种方法的好处是时间足够短;第二种方法则是问卷调研,相对第一种方法更有效些,但数据获取时间太长,且数据本身由于随机性问题会导致偏差。 但在网络时代,获取行为数据更快捷,自然证析的方法便有其用武之地了。

作者引用斯坦福大学的Paul Saffo在1997年的预言“很多公司会突然发现它们的主要业务就是数据”来论述数据的重要意义,网络时代的企业则看上去有先天之利。不过,作者同时也指出“企业现在拥有远比以其能力所能有效处理的更多的数据。” 2003年,Lexis Nexis发现了这个问题,并称之为“数据鸿沟Data Gap”:“企业搜集数据的能力已经远远超过了有效利用这些数据的能力。” 大量的网络公司,数据库里静静地躺着成堆的数据,却从来不曾想过,或者说,不知道该如何处理。

所以,《证析》这本书是大数据领域中的著作,这个领域中的中文著作其实不多,比如涂子培的《大数据》、舍恩伯格的《删除》、《大数据时代》,但它和这些书不太相同的是, 它更注重于具体的方法:如何采集如何建模,故而书的理工科痕迹很重,有不少专业的公式和图表,不是畅销书的写法,但就实际应用而言——特别对于有着大量数据明白数据之意义却不知如何是好的企业管理者,是不可多得的好书。

—— 人物 杂志约稿 ——

相关 [大数据 方法] 推荐:

大数据:方法与技术

- - 透明思考 - Thoughts
(商业读书会第23期的题目:Big Data. McKinsey Quarterly 的,和一篇. 通篇无非就是在讲(1)数据真的很大;(2)各行各业都要学会处理大数据. 于是 另一篇文章 进入视野. 不过最精彩的还是麦肯锡的 分析报告 ,其中最吸引我的是“方法和技术”的部分. 关于“怎么做”的这部分,麦肯锡的报告里分成三个部分:分析方法;技术;可视化展现.

大数据的方法:《证析》

- - 钛媒体TMTpost—把脉科技资本论
每一个从事商铺零售的人都知道,店内商品的摆放是很有些学问的. 这个领域还有本书《啤酒与尿布》来分析如何进行货品陈列. 但即便如此,依然存在两个缺陷:其一,必须通过销售数据来进行指导,而那些逛店但却没有消费行为的,很难从他们身上获得些什么;其二,商铺内的陈设(不仅仅是商品包括装饰物)不可能每天都进行变化,物体的位移总是比较麻烦的.

easyui datagrid 大数据加载效率慢,优化解决方法

- - Web前端 - ITeye博客
在使用easyui datagrid途中发现加载数据的效率真的不是一般的差. 经测试IE8加载300条数据就感觉明显的慢了,加载2000条数据就另人崩溃用时差不多60 秒,就算在google浏览器测试结果也快不了几秒. 平时听闻easyui datagrid效率底下,自己测试才发现真是使人无法忍受.

关于mysql大数据分页的一些方法。

- - CSDN博客编程语言推荐文章
select * from user  limit 0,10;   这种最普通的方法在数据量不大的时候是没问题的. 当数据量大于100W的时候 ,就要 select * from user limit 1000000,10 ;  此时数据库. 要先扫过前面的100W条记录,再来取10条,所以当数据量越来越大的时候,速度也会越来越慢.

大数据和AI策略–面向投资的机器学习和另类数据方法(附280页报告)

- - 互联网数据中心-199IT
J.P.摩根最新的280 页研究报告《大数据和 AI 策略——面向投资的机器学习和另类数据方法》,极为详尽地梳理、评述、预测了对冲基金和投资者使用机器学习技术利用、分析另类数据的现状与未来,对于一切关注这一新兴大趋势的人们、一切投资者都有重要的借鉴意义. 大数据,特别是另类数据集的构建和利用,已经极大地改变了投资领域的面貌.

谈大数据(2)

- - 人月神话的BLOG
对于大数据,后面会作为一个系列来谈,大数据涉及的方面特别多,包括主数据,数据中心和ODS,SOA,云计算,业务BI等很多方面的内容. 前面看到一个提法,即大数据会让我们更加关注业务方面的内容,而云平台则更多是技术层面的内容. 对于大数据会先把各个理解的关键点谈完了,再系统来看大数据的完整解决方案和体系化.

大数据之惑

- - 互联网分析
算起来,接触大数据、和互联网之外的客户谈大数据也有快2年了. 也该是时候整理下一些感受,和大家分享下我看到的国内大数据应用的一些困惑了. 云和大数据,应该是近几年IT炒的最热的两个话题了. 在我看来,这两者之间的不同就是: 云是做新的瓶,装旧的酒; 大数据是找合适的瓶,酿新的酒. 云说到底是一种基础架构的革命.

白话大数据

- - 互联网分析
这个时代,你在外面混,无论是技术还是产品还是运营还是商务,如果嘴里说不出“大数据”“云存储”“云计算”,真不好意思在同行面前抬头. 是千万级别的用户信息还是动辄XXXTB的数据量. 其实,大数据在我的眼里,不是一门技术,而是一种技能,从数据中去发现价值挖掘价值的技能. ”当我掷地有声用这句话开场时,正好一个妹子推门而入,听到这句话,微微一怔,低头坐下.

交通大数据

- - 人月神话的BLOG
本文简单谈下智慧交通场景下可能出现的大数据需求和具体应用价值. 对于公交线路规划和设计是一个大数据潜在的应用场景,传统的公交线路规划往往需要在前期投入大量的人力进行OD调查和数据收集. 特别是在公交卡普及后可以看到,对于OD流量数据完全可以从公交一卡通中采集到相关的交通流量和流向数据,包括同一张卡每天的行走路线和换乘次数等详细信息.

全球10大数据库

- - 译言-电脑/网络/数码科技
原文: Fiorenttini   译者: julie20098. [非商业性转载必须注明译者julie20098和相关链接. ,否则视为侵权,追究转载责任. 世界气候数据中心:气候全球数据中心, 220TB 的网络数据, 6PB 的其它数据. 国家能源研究科学计算中心,有 2.8PB 容量.