小心大数据的陷阱

标签: 小心 大数据 陷阱 | 发表时间:2014-08-24 22:11 | 作者:[email protected](boxi)
出处:http://www.36kr.com/


前不久腾讯举办了一场 夏季思享会,其主题是大数据。关于大数据,大家炒作得更多的是机遇、威力,比方说越来越多人利用Google的大数据来研究趋势,辅助分析决策,但是这场思享会从另一个角度分享了一个很好的思考: 大数据也可能是“大忽悠”

而最近对Google Flu Trends(流感趋势)的一些研究正好佐证了这一点。

说到Google Flu Trends,首先必须先提一提Google Trends和Google Correlate。Google Trends利用对用户搜索的大数据分析来获得人类某些活动的趋势,只要在Google Trends上输入某些查询关键字即可返回相关活动的数据序列。而Google Correlate则是输入数据序列可返回一组结果呈类似模式(相关性)的查询,有点类似于Google Trends的反函数。

Google Flu Trends是Google Trends最早也是最知名的应用之一。鉴于很多人患流感是往往会上Google查询了解疾病情况和用药,因此Google发现这种查询与流感爆发存在着某种相关关系。Google Trends曾经有过多次对流感的成功预测,包括2011/12年的美国流感、2007/08年瑞士流感、2005/06年德国流感、2007/08比利时流感等,其及时性甚至要比美国疾病预防控制中心还要高。

这显示出了搜索“流感”与流感爆发的相关性。

另一个例子是“宿醉”。比方说在Google Trends输入“hangover(宿醉)”,你会发现这种情况在周六开始冒头,然后周日到达巅峰,而到了周一则急剧下降。这种模式与输入“伏特加”的查询结果类似(滞后一天)。

但是数据越大未必就能带来更高的预测率。甚至还会带来“假规律”和“伪相关”。比方说,搜索2004至2012年间的美国汽车销售与“印度餐馆”,结果发现二者之间竟然存在相关关系。这个东西显然是无法解释的。

伪相关的原因是什么呢?

首先, 相关性并不意味着因果关系。比方说,Google Flu Trends对趋势的预测并非屡试不爽。有几次Google Trends就严重高估了流感病例的数量,包括2011/12的美国流感,2008/09瑞士流感,2008/09德国流感、2008/09比利时流感等。

英国伦敦大学学院的研究人员对此进行了 研究。结果发现,到Google搜索“流感”的人可以分成两类,一类是感冒患者,一类是跟风搜索者(可能是因为媒体报道而对感冒话题感兴趣者)。

显然第一类人的数据才是有用的。其搜索是内部产生的,独立于外界的。因此这些人的搜索模式应该与受到外界影响而进行搜索的人的模式不同。而正是第二类人的社会化搜索使得Google Flu Trends的预测失真。这正是因为Google Flu Trends把搜索“流感”与得流感的相关性当成了因果关系所致。

而稍早前美国东北大学与哈佛大学的研究人员对Google Flu Trends的失真案例进行的 另一组研究则认为,这反映出了热炒大数据的氛围下诞生的一股 大数据自大思潮。这股思潮认为,大数据完全可以取代传统的数据收集方法。其最大问题在于,绝大多数大数据与经过严谨科学试验和采样设计得到的数据之间存在很大的不同。首先,大未必全;其次,大则可能鱼龙混杂。

此外,Google 搜索算法本身的变化也有可能影响到Google Flu Trends的结果。这个原因不难理解。要知道,Google搜索的调整非常频繁,单 去年就进行了890项改进。其中就有不少属于算法的调整。媒体对于流感流行的报道会增加与流感相关的词汇的搜索次数,也会令Google增加相关搜索的推荐。从而令一些本身并不感冒的人也对流感产生了兴趣,进而把数据弄脏。

如何清洗数据呢?归根到底还是需要对数据进行模式分析。在流感趋势这个例子,研究人员认为,执行独立搜索的患流感人群的模式会随着时间推移而异于社会化搜索。其表现应该是在流感爆发时搜索急剧攀升,然后随着流感消失而缓慢下降。相反,社会化搜索则会表现得更为匀称。数据表明,在Google流感趋势出现高估的时候,趋势曲线的对称性的确更高。

这说明在分析大数据时必须要注意此类陷阱。充斥的大数据集以及统计学家对分析结果的传播会令真实的数据被放大或弄脏。

正如《The Parable of Google Flu: Traps in Big Data Analysis》的作者所认为那样,数据的价值并不仅仅体现在其“大小”上。利用创新性数据分析方法去分析数据才是本质。

当然,在未来数据能够逐步成为真正的大数据,并且数字世界与实体世界的映射趋于一致时,大数据也许就能发挥其完全的威力,乃至于 改变我们解决问题的方式

除非注明,本站文章均为原创或编译,转载请注明: 文章来自 36氪

36氪官方iOS应用正式上线,支持『一键下载36氪报道的移动App』和『离线阅读』 立即下载!

相关 [小心 大数据 陷阱] 推荐:

小心大数据的陷阱

- - 36氪 | 关注互联网创业
前不久腾讯举办了一场 夏季思享会,其主题是大数据. 关于大数据,大家炒作得更多的是机遇、威力,比方说越来越多人利用Google的大数据来研究趋势,辅助分析决策,但是这场思享会从另一个角度分享了一个很好的思考: 大数据也可能是“大忽悠”. 而最近对Google Flu Trends(流感趋势)的一些研究正好佐证了这一点.

小心!创业期的陷阱

- yunfeng - 博客园新闻频道
  (本文作者是拉卡拉创始人).   从1991年到现在,我自己经营以及参与创建或者投资了近十家公司,深感一个伟大企业成长之不易,成长的路上充满诱惑和陷阱,在此做一个简单分析与大家分享.   企业组建初期需要规避的三个陷阱:和谁合伙、是否送干股,以及股份比例分配.   20年前我就认为“一个人包打天下的时代已经过去”,创业必须找一些合伙人,组建一个团队.

小心:机场免费WiFi的“蜜罐”陷阱

- Goingmm - 东西
如果你跟我一样经常坐飞机,你会发现几乎每个机场都有一个名为“免费公用无WiFi”的无线网络连接. 这是一个“ad hoc”无线连接,即电脑对电脑的无线局域网,之间没有路由器或接入点与因特网接入,是个虚拟的网络. 这个东西几乎无处不在,但我从没有试图连接过,因为我知道即使连上也没法上网. 然而每到一个机场,我都惊奇的发现那里有一个“免费公用WiFi”.

美女主动搭讪?小心数学陷阱

- 人之樗 - 死理性派 - 果壳网
还记得玛丽莲•沃斯•莎凡特(Marilyn vos Savant)吗. 她是吉尼斯世界记录认定的最高IQ人类,在杂志《Parade》上开过一个名叫“问问玛丽莲”(Ask Marilyn)的专栏,专门解决读者的各种疑难杂题,最著名的自然是 三门问题 ,她高明且不可思议的回答让无数人伤透了脑筋. 不过常在河边站哪有不湿鞋,就是这样一个“IQ最高”的人,也有糊涂的时候.

你的密码安全吗?小心那些隐藏的陷阱

- 疯擎羊 - 死理性派 - 果壳网
美国国家安全局(NSA)为了破译恐怖组织的密码以挫败其阴谋,斥巨资建造了一台可以破解一切密码的机器:万能解密机. 这是美国作家丹•布朗在其小说《数字城堡》中虚构的情节. 以人类今日之科技实力,打造这样一台无坚不摧的“神器”还只是个遥远的梦想,但如何在网络社会中保护自己的个人隐私一直是个现实的问题. 20多年来,现代人已经掌握了“数字城堡”——密码的构造方法,自认为可以高枕无忧,但事实远非如此.

好人陷阱

- Kenneth - 励志人生(LzTopic)
一个我喜欢的故事,再讲一次———. 某地发生凶案,迅速抓到杀人嫌犯,证人、证言一应俱全,就是他干的,他无论如何喊冤都没人听. 侥幸逃离的真凶也良心难受,于是他去向一个神父忏悔,说出来后,果然好多了. 可这神父受不了了,他只好去向另一个神父忏悔,以缓解自己承受的压力,每个知道这个邪恶秘密的神父都去找另一个神父忏悔,最后,全国的神父都知道了这个秘密.

效率的陷阱

- hikerlive - 《商业价值》杂志
效率不仅仅在于速度,更在于可持续. 7月中旬,与3G门户总裁张向东等一干朋友参与环青海湖骑行. 在海拔3200米的高原上,用4天时间骑行360多公里. 虽然明知保障车随时在后备用,但对于我们这些平时运动较少,缺乏骑行经验的人来说,也是一个不小的挑战. 挑战的不仅仅是心理和体力,更在于技术与习惯. 一如专业人士所言,长途骑行最大的挑战在于爬坡,而爬坡最大的挑战在于掌握骑行的节奏——也就是结合自身情况,对自行车的变速挡位之切换.