Big Pattern:比数据更大的是模式
前些天我们编译一篇 《大数据时代》的文章,宣告了大数据时代的到来。现在这不仅仅是大数据而已。对于企业技术算法的大玩家来说,还要找出数据自身以外更大的东西,即大模式。
在线生活的爆炸以及廉价计算机硬件使得存储海量非结构化信息(像电子邮件或互联网点击流)成为了可能,然后再去搜索存储的信息,从中找到某些可以利用的趋势。真正的难点在于高效地去做这件事情。大规模地去做这件事情的公司会在不同的领域之间寻找相似性,希望能找出一种共同的分析手段。
说到算法,“如果我能够用于电网的话,那么也能把它用到供水上,”IBM软件及系统高级副总裁Steve Mills说。甚至跟水和电类似的交通,如果其流动有效的话,也能重用其中的某些算法。Mills先生周三旧金山举行的高盛技术会议上称之为“新数学成本结构的杠杆化。”
此类异花授粉令人想起华尔街上世纪九十年代开始的做法,招聘天文学家和理论数学家来设计晦涩难解的金融产品。现在计算的成本已经下降了如此之多,以至于把那些人才带到其他行业也有其用武之地。Mills先生说,IBM现在是数学博士在全球的最大雇主,在那里,数学家可以将自己的才能发挥到石油勘探和医学之类的事情上。“另外,我们还从事天体物理学、基因体学以及蛋白质组学研究工作,”他说。
过去五年,为了其大数据计划,IBM在收购分析公司方面的花销大约是140亿美元。“我们在寻找不同业务之间的相近性,”Mills先生说:“如果找不到相近性,我们就永远都得不到回报。”
学术和商业的许多领域都出现了寻找通用性及共同利益这种趋势。在极微的纳米级对细胞进行检查,研究人员说,生物学、化学和物理学开始互相令对方土崩瓦解。在更广的模式寻找中,统计学学生用R语言根据计算绿潮的方法证明中美洲对土著人种族灭绝的模式。网络营销人员在若干上下文的环境中寻找你的行为,然后甚至在你都还不知道自己想要的情况下卖给你需要的东西。
也许万物皆有关联,寻找出这种关联是非常吸引人的。虽如此,但是目前还存在着若干挑战。一个多世纪来,实验室的研究模式对于科学进步和产品研发都是非常重要的;也许不久它还得担负起另一个重任,即仅仅根据模式热点定位来寻找出事实。近期公司将不得不做出艰难的选择—投资什么地方,观察哪些信号。什么都想做最终还是会什么都做不了。
Via: 纽约时报
有关的故事