关于遗忘、发明与教育:“大数据”未来的若干可能
我们生活在一个被几何级爆炸的数据包围的时代,现在,这些数据被叫作“大数据”。
大数据将深刻影响人们的生活、工作和生活方式——而反过来说,你留在数字世界里的任何踪迹都变成了数据的一部分。它包括你在社交网络上的每条口水吐槽和照片,你的地理位置签到,你点击的每一个“like”,你与任何人的“好友”链接,你在亚马逊上每一次“点击”的购买记录甚至你的每一次搜索内容……也就是说,每个人创造的数据就是“大数据”的一部分,每个人都是大数据的生产者和消费者。
它延伸了诸多将数据应用于现实生活、工作甚至记忆的可能。以下是12月11日上午在北京云基地,《大数据时代:生活、工作与思维的大变革》一书的作者、牛津大学教授Victor Mayer-Schonberger与中国宽带产业基金董事长田溯宁视野下的关于未来大数据发展的几种可能性:
大数据与遗忘曲线:Victor认为,随着数据的爆炸,大数据应该提供一种自动的“遗忘”功能,帮助人们分析、筛选其漫长经历中所获得的全部数据,有哪些是可以被遗忘、删除或丢弃的。比如在亚马逊上,每个人的购书记录都被看作是分析个人爱好、兴趣和口味的数据,用来推荐你现在/未来可能会喜欢的书。但这做的并不够,因为随着时间的推移,人的兴趣是可能会消退和改变的。未来的大数据分析应诞生一个聪明的“遗忘”机制,能根据时间、年龄、心理学和人们的行为的细节变化,自动帮人们“删除”一部分已经丧失了意义的历史数据。
大数据与下一次产业革命:田溯宁认为,大数据应该被用于发现未来的下一个X光或阿司匹林,也就是为真正改变人类生活和进程做些什么。过去人们发现和发明一个东西,依据的通常是经验,以及具体的实验数据和样本,尚且不能从已有的经验和实际数据中,智能地分析、预测问题的症结在哪里,以及如何解决它们。科学发明是一项关于未来的事业,而大数据背后的挖掘与同样分析未来将把人们带向不可知的未来,帮助下一个震撼世界文明的发明的诞生。
大数据与“好数据”“坏数据”:别忘了数据都是每个人创造的,其中的质量差异将可能导致人们使用数据的效果的差异。Victor认为,未来大数据分析将有效地帮人们分辨“好数据’和”坏数据”,从而将数据的效果最大化。他还列举了亚马逊的例子,那些被亚马逊推荐给我的图书和商品,其中从来没有被我购买甚至点击过的那部分,通常意味着这些是“坏数据”,因为它从来不曾被需要过。而那些被采购和频繁点击的数据通常意味着“好数据”,它更能反映一个人的真实心理、兴趣和消费习惯,将这些数据进行归类和分析,可能会更充分地利用数据本身。
大数据与“相关性”:大数据的普及将使人们更好地发现和精确事物之间的相关性。事实上人脑和人的思维方式是并不擅长处理数据分析的。比如你问一家电影院的老板,今年最卖座的电影是什么,他/她告诉你的那个答案你可能也觉得是正确的答案,事实上通常都是错误的。而更多的问题出现在相关性上——比如人们突发的一场疾病,可能会被医生和自己诊断为是最近的一次食物中毒,人们似乎对这个结论达成了共识,然后“对症下药”,但这个结论很可能是错的,真实的原因可能是你最近去到的某个地方沾染了某种病毒或化学元素。在复杂的人的行为和生活场景面前,人们通常为一些“不相关”的结论做了太多无用功。而有了机器学习和数据分析,与一件事最具相关性的原因和症结就更容易被发现出来。
大数据与教育:“在线教育”是个更热门的话题,而大数据也可以被应用于在线教育。Victor举例说,在Udacity和Coursera这样的“在线大学”,当教授发现自己录制的一段课程其中的 某几个环节或时间点,被学生们反复浏览和点击的时候,他通常会及时地意识到这可能是一个对学生来说难以掌握的知识点,或是一个自己的讲解表述有差失的地方,接下来就可以据此调整讲义。而对考试这件事来说,通过在线模拟测试,大数据可以用来分析和统一某个学生群体或个体对不同知识点的掌握情况,当某个知识点的题目被频繁做错的时候,系统就会在接下来的模拟测试中不断强化出现与这个知识点相关的题目,以巩固学习效果。这不是帮人“作弊”,反而是强化理解知识的方式。