数据的征服:读《大数据时代》

标签: TMT乱弹 媒体供稿 读书 大数据时代 网络传播 | 发表时间:2013-02-15 10:00 | 作者:魏武挥
出处:http://weiwuhui.com

1ea94fac38484fe45b2652d25d94d6f1谷歌有一个名为“谷歌流感趋势”的工具,它通过跟踪搜索词相关数据来判断全美地区的流感情况(比如患者会搜索流感两个字)。近日,这个工具发出警告,全美的流感已经进入“紧张”级别。它对于健康服务产业和流行病专家来说是非常有用的,因为它的时效性极强,能够很好地帮助到疾病暴发的跟踪和处理。事实也证明,通过海量搜索词的跟踪获得的趋势报告是很有说服力的,仅波士顿地区,就有700例流感得到确认,该地区目前已宣布进入公共健康紧急状态。

这个工具工作的原理大致是这样的:设计人员置入了一些关键词(比如温度计、流感症状、肌肉疼痛、胸闷等),只要用户输入这些关键词,系统就会展开跟踪分析,创建地区流感图表和流感地图。谷歌多次把测试结果(蓝线)与美国疾病控制和预防中心的报告(黄线)做比对,从下图可知,两者结论存在很大相关性:

但它比线下收集的报告强在“时效性”上,因为患者只要一旦自觉有流感症状,在搜索和去医院就诊这两件事上,前者通常是他首先会去做的。就医很麻烦而且价格不菲,如果能自己通过搜索来寻找到一些自我救助的方案,人们就会第一时间使用搜索引擎。故而,还存在一种可能是,医院或官方收集到的病例只能说明一小部分重病患者,轻度患者是不会去医院而成为它们的样本的。

clip_image002

这就是一个典型的“大数据”的应用例子,舍恩伯格的这本《大数据时代》受到了广泛的赞誉,他本人也因此书被视为大数据领域中的领军人物。大数据起源于数据的充裕,舍恩伯格在他的另外一本书《删除》中,提到了这些源头。

1、信息的数字化,使得所有信息都可以得到一个完美的副本;2、存储器越来越廉价,大规模存储这些数字信息成本极低;3、易于提取:数据库技术的完善使得这些存储的信息能够被轻易按照一定的条件搜索出来;4、全球性覆盖,网络是无国界的,a地的数字信息可以让远在天边的b地调用。

当我们掌握有大量的数据后,便可以开始进行所谓“大数据”的操作。大数据在舍恩伯格看来,一共具有三个特征:全样而非抽样,效率而非精确,相关而非因果。

第一个特征非常好理解。在过去,由于缺乏获取全体样本的手段,人们发明了“随机调研数据”的方法。理论上,抽取样本越随机,就越能代表整体样本。但问题是获取一个随机样本代价极高,而且很费时。人口调查就是典型一例,一个稍大一点的国家甚至做不到每年都发布一次人口调查,因为随机调研实在是太耗时耗力了。

但有了云计算和数据库以后,获取足够大的样本数据乃至全体数据,就变得非常容易了。谷歌可以提供谷歌流感趋势的原因就在于它几乎覆盖了7成以上的北美搜索市场,而在这些数据中,已经完全没有必要去抽样调查这些数据:数据仓库,所有的记录都在那里躺着等待人们的挖掘和分析。

第二点其实建立在第一点的基础上。过去使用抽样的方法,就需要在具体运算上非常精确,因为所谓“差之毫厘便失之千里”。设想一下,在一个总样本为1亿人口随机抽取1000人,如果在1000人上的运算出现错误的话,那么放大到1亿中会有多大的偏差。但全样本时,有多少偏差就是多少偏差而不会被放大。诺维格,谷歌人工智能专家,在他的论文中写道:大数据基础上的简单算法比小数据基础上的复杂算法更加有效。

数据分析并非目的就是数据分析,而是有其它用途,故而时效性也非常重要。精确的计算是以时间消耗为代价的,但在小数据时代,追求精确是为了避免放大的偏差而不得已为之。但在样本=总体的大数据时代,“快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多”。

第三个特征则非常有趣。相关性表明变量A和变量B有关,或者说A变量的变化和B变量的变化之间存在一定的正比(或反比)关系。但相关性并不一定是因果关系(A未必是B的因)。

亚马逊的推荐算法非常有名,它能够根据消费记录来告诉用户你可能会喜欢什么,这些消费记录有可能是别人的,也有可能是该用户历史上的。但它不能说出你为什么会喜欢的原因。难道大家都喜欢购买A和B,就一定等于你买了A之后的果就是买B吗?未必,但的确需要承认,相关性很高——或者说,概率很大。

舍恩伯格认为,大数据时代只需要知道是什么,而无需知道为什么,就像亚马逊推荐算法一样,知道喜欢A的人很可能喜欢B但却不知道其中的原因。这本书的译者天才教授周涛则有不同的看法,他认为,“放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落”。

这个争议在我看来,双方讨论的可能不是一回事。舍恩伯格在这本书中完全不像他在《删除》一书中表现得那么有人文关怀,这是一本纯商业的书籍,商业本来就是以结果为导向的。但周涛谈论的却和“人工智能”有关。

吴军在他的《数学之美》中曾经提到,人工智能领域曾经走过一个很大的弯路,即人们总是试图让计算机理解人类的指令——注意,是理解,不是知道。但折腾了很多年,发现计算机的理解力实在白痴得比三岁小孩还要弱。最终人工智能放弃了这条途径,而改为数据传输和匹配。举个例子说,你在进行语音输入的时候,事实上计算机完全不知道你在说什么(或者说,完全不理解你的意思),但不妨碍它能够准确地把你说的话尽可能地用字符表达出来。苹果的Siri是很神奇,但它其实并不懂你的意思,而只是你的语音数据和它的后台数据一次匹配而已。

因果关系涉及到“理解”这个范畴,而不是简单的知道或匹配。舍恩伯格所谓放弃因果而寻求相关,是因为他本来就是写本商业书,要具体指导商业运作的,周涛所谓不可放弃因果,因为他是一名学者,并不完全站在赚钱这个角度上。换而言之,周涛看的是长远的未来,舍恩伯格讨论的是眼下。

在可以看到的未来中,可能计算机掌握不了三岁小孩的理解力,计算机和人类之间的象棋比赛,一个在思考,一个在做数据匹配,两者虽然都在下棋,路径却全然不同。人类可以暂时不用过于担心计算机来统治人类,因果关系这种理解,还是掌握在人类手中的。

大数据时代是信息社会运作的必然结果,而借由它,人类的信息社会更上一个台阶。农业社会人们以土地为核心资源,工业时代转为能源,信息社会则将变更为数据。谁掌握数据,以及数据分析方法,谁就将在这个大数据时代胜出,无论是商业组织,还是国家文明。

—— 《网络传播》 供稿 ——


Copyleft © 2013 知识共享署名-非商业性使用-禁止演绎 注意:转载勿改标题!
ItTalks -- 魏武挥的Blog (digitalfingerprint:fc4f8fc31f70097eea4b780b13146415)

欢迎 关注 我的微博 订阅我的微信公众账号:ittalks
无觅猜您也喜欢:

大数据时代的结构和反抗

《数字时代阅读报告》第八期发布

《数字时代阅读报告》诚召编辑、作者

《数字时代阅读报告》第五期发布
无觅

相关 [数据 征服 大数据] 推荐:

数据的征服:读《大数据时代》

- - It Talks--上海魏武挥的博客 - It Talks--上海魏武挥的博客
谷歌有一个名为“谷歌流感趋势”的工具,它通过跟踪搜索词相关数据来判断全美地区的流感情况(比如患者会搜索流感两个字). 近日,这个工具发出警告,全美的流感已经进入“紧张”级别. 它对于健康服务产业和流行病专家来说是非常有用的,因为它的时效性极强,能够很好地帮助到疾病暴发的跟踪和处理. 事实也证明,通过海量搜索词的跟踪获得的趋势报告是很有说服力的,仅波士顿地区,就有700例流感得到确认,该地区目前已宣布进入公共健康紧急状态.

谈大数据(2)

- - 人月神话的BLOG
对于大数据,后面会作为一个系列来谈,大数据涉及的方面特别多,包括主数据,数据中心和ODS,SOA,云计算,业务BI等很多方面的内容. 前面看到一个提法,即大数据会让我们更加关注业务方面的内容,而云平台则更多是技术层面的内容. 对于大数据会先把各个理解的关键点谈完了,再系统来看大数据的完整解决方案和体系化.

大数据之惑

- - 互联网分析
算起来,接触大数据、和互联网之外的客户谈大数据也有快2年了. 也该是时候整理下一些感受,和大家分享下我看到的国内大数据应用的一些困惑了. 云和大数据,应该是近几年IT炒的最热的两个话题了. 在我看来,这两者之间的不同就是: 云是做新的瓶,装旧的酒; 大数据是找合适的瓶,酿新的酒. 云说到底是一种基础架构的革命.

白话大数据

- - 互联网分析
这个时代,你在外面混,无论是技术还是产品还是运营还是商务,如果嘴里说不出“大数据”“云存储”“云计算”,真不好意思在同行面前抬头. 是千万级别的用户信息还是动辄XXXTB的数据量. 其实,大数据在我的眼里,不是一门技术,而是一种技能,从数据中去发现价值挖掘价值的技能. ”当我掷地有声用这句话开场时,正好一个妹子推门而入,听到这句话,微微一怔,低头坐下.

交通大数据

- - 人月神话的BLOG
本文简单谈下智慧交通场景下可能出现的大数据需求和具体应用价值. 对于公交线路规划和设计是一个大数据潜在的应用场景,传统的公交线路规划往往需要在前期投入大量的人力进行OD调查和数据收集. 特别是在公交卡普及后可以看到,对于OD流量数据完全可以从公交一卡通中采集到相关的交通流量和流向数据,包括同一张卡每天的行走路线和换乘次数等详细信息.

有关大数据的误区:数据统计≠大数据

- - 钛媒体网
钛媒体注: 大数据太火了,被广泛应用到各行各业,而近阶段又有着明显的过热迹象. 大数据到底是一个营销词汇,还是一个方法论. 本文作者老李正是一家大数据服务提供商的资深员工,他所做的项目就是针对不同行业进行大数据分析. 他认为,关于大数据你首先必须有一个基本认识,那就是“大量的数据并非一定具有价值”.

全球10大数据库

- - 译言-电脑/网络/数码科技
原文: Fiorenttini   译者: julie20098. [非商业性转载必须注明译者julie20098和相关链接. ,否则视为侵权,追究转载责任. 世界气候数据中心:气候全球数据中心, 220TB 的网络数据, 6PB 的其它数据. 国家能源研究科学计算中心,有 2.8PB 容量.

谈大数据分析

- - 人月神话的BLOG
对于数据分析层,我们可以看到,其核心重点是针对海量数据形成一个分布式可弹性伸缩的,高查询性能的,支持标准sql语法的一个ODS库. 我们看到对于Hive,impala,InfoBright更多的都是解决这个层面的问题,即解决数据采集问题,解决采集后数据行列混合存储和压缩的问题,然后形成一个支撑标准sql预防的数据分析库.

大数据的一致性

- - 阳振坤的博客
看到了一篇关于数据一致性的文章:下一代NoSQL:最终一致性的末日. (  http://www.csdn.net/article/2013-11-07/2817420 ),其中说到: 相比关系型数据库,NoSQL解决方案提供了shared-nothing、容错和可扩展的分布式架构等特性,同时也放弃了关系型数据库的强数据一致性和隔离性,美其名曰:“最终一致性”.

大数据Lambda架构

- - CSDN博客云计算推荐文章
1 Lambda架构介绍.          Lambda架构划分为三层,分别是批处理层,服务层,和加速层. 最终实现的效果,可以使用下面的表达式来说明. 1.1 批处理层(Batch Layer, Apache Hadoop).          批处理层主用由Hadoop来实现,负责数据的存储和产生任意的视图数据.