大数据时代,让一群脑残为你选书

标签: 大数据 big data 舍恩伯格 大数据时代 书评 | 发表时间:2013-06-18 14:40 | 作者:
分享到:
出处:http://shibeichen.com/

(本文首发 纽约时报中文网,转载请注明。本文与刊登版略有不同。)

对“大数据”概念还搞不清的人可以松一口气了,如果你读过《大数据时代》(Big Data:A Revolution That Will Transform How We Live, Work, and Think),你会发现 舍恩伯格(Viktor Mayer-Schönberger)对“大数据”的定义如此简单:所谓大数据(Big Data),就是大量的数据;它的反义词同样简单:小数据(Small Data),很少很少的数据。

相比于作者所著同样谈论大数据话题的 《删除:大数据取舍之道》一书,《大数据时代》结构紧密,逻辑清晰,论证过程也更为严谨。本书在何为大数据、大数据有何典型特征、大数据的实际应用和未来以及大数据的隐忧等关键问题上,通过案例和通畅晓白的解释,梳理清楚了“大数据”这个看起来高深复杂但其实无处不在的概念。在舍恩伯格看来,以往我们因受限于工具而采用的抽样调查以及精准采样数据的分析方法需要革新,大数据时代是改变方法论和思维方式的过程。

大数据时代的到来,与信息数字化息息相关。在2000年的时候,以数字化形式存储的数据仅占全球数据量的四分之一,而到了2007年时,90%以上数据是数字化数据,剩下不到10%是存储在报纸、CD等介质上的模拟数据。我们知道,模拟数据在复制和传播过程中信息会失真、噪音叠加,比如一张纸连续复印三次之后,噪点越来越多,字迹越来越模糊,一盘音乐磁带连续翻录多次之后,令人厌烦的“嗞嗞”声越来越大。而二进制数字世界,是一个非黑即白的世界,要么1要么0,即使有噪点,灰色也会被识别黑色(1),浅白则被计算机处理为白(0),没有中间地带,也就没有了噪音的容身之处。信息在数字世界得以无损复制和传播,再加上不断廉价化的存储能力以及同时提高的计算能力,大量以前无法处理的数据,有了分析、解读它们的可能。

在模拟信息的世界,因为信息收集、信息复制、信息存储以及信息分析的工具既不够好,成本也极为高昂,我们只能收集极少量的数据(也即所谓的“结构化数据”)进行分析,由于条件所限,我们发明了统计学来通过尽可能少的数据,去推导、去证实尽可能重大的发现。当我们意识到我们已经拥有能够收集和处理大规模数据(也即所谓更多的“非结构化数据”)能力的时候,我们需要新的理念和工具去重新认识这个世界了。

新的理念运用于工具上的体现之一是光场相机Lytro。与其它数码相机不同的是,Lytro相机可以在拍摄完照片之后再对焦。因为在拍摄时,Lytro可以记录整个光场里所有的光,照片具体生成什么样,拍完之后根据需要再决定。——有没有发现这颠覆了我们做事的一贯逻辑?以往我们因为受制于工具或金钱,需要提前想好我们的目的,再去获取我们需要的信息。而大数据时代的思维方式则如Lytro的特性一样,先拍下来再说,需要什么样的照片,后期再处理。Lytro相机也算从胶片机过渡到数码相机交叠时代思维的延续,如果摄影技术不太好,先拍一堆片子再说,你总能挑出几张好的来。

对小数据而言,最重要的要求是减少错误,保证质量。而大数据对更糙的信息及冗余信息容忍度更高,也即当资源足够丰富且廉价的时候,可以先大量浪费,再来精准化。而不是预设精准的目标。亚马逊早期雇佣了一群书评家为读者荐书,后来发现通过算法——一群对图书质量判断能力远不如专业人士的普通读者的口味的集合——推荐图书的转化率更高之后,亚马逊把书评家们都解雇了。由于自己多年积累被算法取代的愤怒,在被解雇之后,书评家发出这样的抱怨:(通过算法推荐)“那种感觉就像你和一群脑残在一起逛书店。”类似的故事也发生微软。微软机器翻译部门的统计学家们在茶余饭后闲聊中会说,每次一有语言学家离开他们团队,微软机器翻译质量就会变得更好一点。

从对信息质量的角度出发去观察,我们会发现大数据时代的特性的确越来越“脑残化”:它放弃原始数据的精确性,强调数据量的多和杂;它放弃因果关系的判断,强调相关关系;它放弃知其所以然(为什么),只需知其然(是什么)就可以了。豆瓣阅读为什么给你推荐《中国合伙人》?背后的逻辑可能是你的朋友最近点了“想看”或“看过”。新浪微博为什么推荐李承鹏而不是李开复给你关注?背后的逻辑可能是你关注的人中更多人关注李承鹏。但为什么因为朋友喜欢,所以机器就会判定你也会喜欢呢?不知道。机器通过计算得知,如果你有很多朋友喜欢同一个事物,那么你喜欢这个事物的概率会大一些。可能对,也可能错。二者之间强相关,但不因果。

大数据最大的用途之一是预测。好的方面,它可以预测机票价格走势,为自费旅游者省钱;它能预测交通拥堵情况,帮助人们选择更好的时段和路线节省出行时间;它也可以像亚马逊做的那样,为你提供更准确的书单,帮你遇见更多好书。 《麻省理工科技创业》曾报道说,英国伯明翰大学的一个研究团队甚至开发出一种算法,可以精确地预测你未来将要去哪里。大多数人一般有规律的行为模式,但传统的预测算法——只通过用户本身的行为模式来进行预测,解决不了人们临时变更路线的情况,导致预测人们出行的平均误差高达1000米。伯明翰大学开发的算法可以通过追踪用户手机上的个人过往行为模式数据以及用户手机里的社交关系——当然,新型算法需要收集和分析大量个人信息。最后能预测用户在24小时之内会去什么地点,而平均误差减少到仅20米。

如此精准的研究结果让人惊喜——细想过后,可能给人带来更多的是惊讶,或惊恐。没有人希望自己的正常出行被别人预测——机器竟然比我自己还了解自己,我连三小时后我会干嘛都不知道呢!这提醒我们在大数据时代,我们将面临的隐私问题的严峻。

在小数据时代,数据采集者需要告知数据提供者其采集的数据用途为何;但在大数据时代,这样的信息管理方式已经失效。舍恩伯格在书中指出,“大数据”将颠覆隐私保护法当下以个人为中心的思想。比如许多公司采集用户数据时的目的与最后使用的目的往往不同,而且在未来,大数据的价值不再单纯来自它的基本用途,更多来于它的二次甚至多次利用。但有时候即使个人不同意,也会为公众带来隐私问题。以Google街景项目为例,Google采集了街道上的几乎全部信息,如果有某个人不同意ta的数据显示在Google街景中,Google会将该信息模糊化处理。但当其他人的信息都完整呈现在街景图中时,“马赛克”(模糊化处理)的部分反倒成了焦点——本想隐藏掉的信息反倒成了此地无银三百两式的焦点。未来的个人数据采集与数据授权,需要替换掉目前的隐私保护方案。

舍恩伯格在书中举的更讽刺的案例则是,2007年, 英国报纸London Evening Standard一篇报道称,在乔治·奥威尔创作《1984》的地方,也就是他在伦敦公寓方圆183米范围内,有32架摄像机。如果奥威尔生活到现在,看到此情此景,他会做何感想?

相关 [大数据 时代 脑残] 推荐:

大数据时代,让一群脑残为你选书

- - Digital Meme
(本文首发 纽约时报中文网,转载请注明. 相比于作者所著同样谈论大数据话题的 《删除:大数据取舍之道》一书,《大数据时代》结构紧密,逻辑清晰,论证过程也更为严谨. 本书在何为大数据、大数据有何典型特征、大数据的实际应用和未来以及大数据的隐忧等关键问题上,通过案例和通畅晓白的解释,梳理清楚了“大数据”这个看起来高深复杂但其实无处不在的概念.

大数据告诉我们:小时代属于谁的小时代

- - i黑马
整个7月,有关《小时代》的争议都在不断发酵. 从新浪微博的“大V联合论战”( 史航、周黎明微博联手对抗《小时代》粉丝围攻)到《人民日报》发文批判,在各界对《小时代》的口诛笔伐中,处处可见“大神级”的高端黑. 对立的一边,则是《小时代》庞大粉丝群自发地持续地坚强地激烈地捍卫着他们偶像的利益. 在一片争议声中,成本仅2000万元的《小时代》获得了接近5亿元的票房(截至本刊发稿时).

大数据时代的首席营销官

- - 《商业价值》杂志
最近,IBM微博上的一则故事吸引了很多人的注意,故事讲述在美国的一个父亲,某天发现自己17岁的女儿竟然收到了来自零售商店Target的婴儿用品优惠券,盛怒之下向商店投诉. 一个月后,商店收到了这位父亲尴尬的道歉电话,称商店并非误发了优惠券,自己的女儿确实怀孕了……. 事实上,这则故事中的主角——Target公司的市场营销团队聘请了一支专业的数据分析团队为他们确认出妊娠期的孕妇.

数据的征服:读《大数据时代》

- - It Talks--上海魏武挥的博客 - It Talks--上海魏武挥的博客
谷歌有一个名为“谷歌流感趋势”的工具,它通过跟踪搜索词相关数据来判断全美地区的流感情况(比如患者会搜索流感两个字). 近日,这个工具发出警告,全美的流感已经进入“紧张”级别. 它对于健康服务产业和流行病专家来说是非常有用的,因为它的时效性极强,能够很好地帮助到疾病暴发的跟踪和处理. 事实也证明,通过海量搜索词的跟踪获得的趋势报告是很有说服力的,仅波士顿地区,就有700例流感得到确认,该地区目前已宣布进入公共健康紧急状态.

云营销:大数据时代的新营销革命

- - 互联网的一些事-关注互联网产品管理,交流产品设计、用户体验心得
  营销学领域过去半个多世纪的发展让我们见证了从“以产品为中心”向“以客户为中心”的转变,最受欢迎的营销理论也从“4P”转向了以消费者需求为导向的“4C”理论和以关系营销为导向的“4R”理论. 互联网与移动互联网主导下的数字化信息时代可以帮助企业以前所未有的速度收集用户的海量行为数据,在大数据的基础上分析、洞察、和预测消费者的偏好,并据此为消费者提供最能满足他们需求的产品、信息、和服务.

大数据时代SEO数据如何搜集和分析

- - 月光博客
  在这个人人都高喊“大数据时代”的今天,数据似乎被提到一个前所未有的高度. 无论是个人站长还是大中型公司,亦或是大型跨国集团,无论是网络营销还是线下的市场营销都在意识到数据的重要性,凡是都以数据来说话. 但是,据笔者了解,在很多中小型公司和个人站长中,对于数据重视有余,却利用不足.   很多人不清楚需要搜集什么样的数据;也有的不清楚通过什么渠道来搜集数据;还有大部分不清楚搜集整理的数据如何去分析,进而也就不清楚怎么去利用这些数据.

大数据时代 五大商业分析技术趋势

- - 互联网分析
目 前,趋势中心对如何应对分析挑战的关注力度并不亚于他们考虑在新商业视角中如何充分利用机遇的力度. 例如,随着越来越多的公司开始不得不面对海量数据以及 考虑如何利用这些数据,管理与分析大型不同数据集的技术开始出现. 提前分析成本与性能趋势意味着公司能够提出比以前更为复杂的问题,提供更为有用的信息以 帮助他们运营业务.

大数据时代:银行如何玩转数据挖掘

- - i黑马
数据挖掘(Data Mining)是一种新的商业信息处理技术,产生于20世纪80年代的美国,首先应用在金融、电信等领域,主要特点是对大量数据进行抽取、转换、分析和模型化处理,从中提取出有助于商业决策的关键性数据. 银行信息化的迅速发展,产生了大量的业务数据. 从海量数据中提取出有价值的信息,为银行的商业决策服务,是数据挖掘的重要应用领域.

互联网金融:大数据和技术为王的时代

- - 动点科技
(编者:本文作者李张鲁Dennis Roudenko,是青年投资家俱乐部发起人、华创资本资深分析师. 华创资本投资了10多家互联网金融公司,同时与IDG合有互联网金融投资基金,投资范围在20-2000万美金. 互联网金融本身只是一个概念,是泛指那些通过互联网和大数据手段来完成并优化的金融业务. 历来现有的机构都在尝试运用这些手段去优化自己的业务,但2012年这一领域才开始火起来是因为时机成熟了,大可归功于两大点:大数据的出现与技术的普及与应用.

大数据时代律师行业的三大变革

- - IT经理网
面对新技术,法律专业人士通常是最保守的人群之一,但大数据时代,律师和律师事务所要想脱颖而出,卓尔不群,尽快采用大数据技术是不二之选. 2008年金融危机以来,律师行业经历了长期的低潮,越来越多的企业客户无法负担高昂的律师费用,导致律所裁员不断,规模日渐萎缩. 而那些行业领先的律所开始推崇“精益企业”,收费模式也从过去的固定费率调整为按需服务.