2012,大数据五大预测

标签: 业界 大数据 | 发表时间:2012-02-22 17:57 | 作者:sarah_long
出处:http://www.leiphone.com

更加强大且富有表现力的分析工具

在过去的一年中,围绕着NoSQL和Hadoop,基本的存储与数据处理引擎方面的改进工作得到了加强并且日趋工程化。毫无疑问,这种态势将会持续 下去,因为我们看到了Hadoop世界中有越来越多形态各异的产品融入到了各种发布包、设备和按需的云服务当中。我衷心希望在不远的将来Hadoop能够 成为必要的基础设施。

现在,已经出现了一些面向程序员与数据科学家的工具(例如Karmasphere和Datameer),此外,还有面向已经建立起来的分析工具的Hadoop连接器(例如Tableau和R)。但还有一种方式可以让大数据变得更为强大,那就是降低实验的成本。

下面两种方式可以使大数据变得更为强大。

  • 更好的编程语言支持。因为我们将数据而非业务逻辑作为程序中的主要实体,所以必须要创建或再去探索一些方言,使我们能够将精力放在数据而非底层 Hadoop设施所透露出来的抽象上面。换句话说,编写更简短的程序,能够更清晰地表达出我们对数据所做的处理。这些抽象将有助于为非程序员创建更好的工 具。
  • 需要提供更好的交互支持。如果说Hadoop有缺点,那么其缺点也在于它所孕育的批量化处理的计算本质。数据科学的敏捷本质决定了它钟爱于能够提供更好交互性的工具。

 

流线化的数据处理

Hadoop批量化的处理对于很多场合都足够用了,特别是数据报告的频率不需要达到分钟级别的场合。然而,批量化处理并非总能满足我们的要求,特别是对于移动和Web客户端等在线需求,或是财务和广告等需要实时变化的市场。

在未来几年中,用于处理流线化或接近实时的分析与处理的可伸缩框架和平台将会得到采用。Hadoop将会支持大规模的Web应用,这些平台将会由大规模位置感知的移动、社交和传感器应用所推动。

对于某些应用来说,已经没有足够的空间来存储业务接收到的所有数据:在某一时刻,你需要扔掉一些东西。凭借流线化的计算能力,你可以对数据进行分析 并决定扔掉哪些数据而不必查看map/reduce的“存储—计算”循环。在实时框架领域中,新涌现的竞争者有来自Twitter的Storm和 Yahoo!的S4。

数据市场的兴起

当与其他数据集混合到一起时,你自己的数据会变得更有说服力。比如说,将天气状况添加到客户的数据中,检查是否有与客户购买模式相关的天气模式。获 取这些数据集是个让人头疼的问题,特别是在IT部门之外做这件事,并且要求一定的精度时更是如此。数据市场的价值在于为这种数据提供了一个目录,以及流线 化、标准化的交付方法。微软将其Azure市场集成到分析工具中的做法预示了我们今后能更加方便地访问数据了。

数据科学工作流与工具的开发

随着数据科学团队不断为各个公司所认可和接受,其角色和流程将会变得更加正规化。成功的数据科学团队的驱动力之一就是其与公司经营活动的集成程度,这与成为边缘的分析团队截然相反。

软件开发者已经拥有了大量富于逻辑与社交性质的基础设施,这包括wiki与源代码控制,以及用于将其流程和需求公开给企业主的各种工具。集成的数据 科学团队需要自己的一套工具才能高效协作。其中之一就是EMC Greenplum的Chorus,它提供了针对数据科学的一个社交软件平台。使用这些工具有助于组织中数据科学处理的不断涌现。

数据科学团队将会逐渐开始一些重复的流程,我们希望这是敏捷的。相比诸如The Guardian和NewYork Times之类的新闻组织的新闻数据团队所做的开创性工作:只要给定一个不长的时间表,这些团队就可以将原生格式的数据转换为成品,这需要与记者携手来完 成。

对可视化的理解和需求的提升

可视化在数据工作流中能够实现两个目的:解释与探索。虽然业务人员可能将可视化看作是最终结果,但数据科学家还会将可视化作为寻求问题以及探索数据集新特性的一种方式。

如果说成为数据驱动的组织需要培养所有员工拥有更好的数据感觉的话,那么可视化在将数据操纵能力传递给那些不会编程或缺乏统计分析技巧的员工的过程中就扮演着重要角色。

过去的整整一年,业务对数据科学家的需求一直都是如此。我不断地听到数据科学家说,他们最想要的是:懂得创建可视化的人才。

 

Via Programmer

相关 [大数据 预测] 推荐:

2012,大数据五大预测

- - 雷锋网
更加强大且富有表现力的分析工具. 在过去的一年中,围绕着NoSQL和Hadoop,基本的存储与数据处理引擎方面的改进工作得到了加强并且日趋工程化. 毫无疑问,这种态势将会持续 下去,因为我们看到了Hadoop世界中有越来越多形态各异的产品融入到了各种发布包、设备和按需的云服务当中. 我衷心希望在不远的将来Hadoop能够 成为必要的基础设施.

大数据(Bigdata)未来发展趋势预测

- - 博客园_新闻
随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注. 大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱. 大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像 MapReduce 一样的框架来向数十、数百或甚至数千的电脑分配工作.

日本利用大数据预测流感 结果精确

- - TECH2IPO创见
日本 NHK 网站报道,日本国内有一个网站,你只要打开这个网站用自己的 Twitter 账号登录,就可以在短时间内通过数万条 Twitter 找出可能感冒的人,并通过过去的感冒情况和今日的感冒情况进行分析(以及统计目前发烧以及嗓子痛的患者数量),另外该程序还会结合气温和湿度的变化来预测将来感冒的流行情况,并制作一个“易感冒日历”.

【大数据】揭秘谷歌的票房预测模型

- - 互联网分析
【导语】近日,谷歌公布了一项重要研究成果 – 电影票房预测模型. 该模型能够提前一个月预测电影上映首周的票房收入,准确度高达94%. 这在业内引起了强烈讨论,不少内人士认为该模型非常适合好莱坞电影公司通过预测票房来及时调整电影营销战略,但同时也有吐槽者暗示谷歌的票房预测模型别有用心,旨在鼓动电影公司购买其搜索引擎广告.

2014年大数据市场趋势十大预测

- - IT经理网
大数据是2013年热度最高的技术词汇,这一年大数据市场也实现了高速增长,越来越多的企业开始拥抱大数据解决方案,而随着生态系统的日益成熟,Hadoop也不再是天才技术人员的玩具,而是数据科学家和业务人员手中挖掘数据商业价值的强大“矿机”. 如果说2013年只是大数据市场的热身赛和预选赛,那么2014年大数据市场将迎来世界杯盛宴,近日CIO杂志给出了2014年大数据市场十大预测,IT经理网编译整理如下:.

大数据预测:4个特征,11个典型行业

- - TECH2IPO创见
本文作者罗超 编辑 reMake. 世界杯期间各家科技巨头利用大数据预测比赛结果,再现“章鱼保罗”雄风. 世界杯结束了但大数据预测还会继续. 从夜观天象到气象预报,从童话里的水晶球到今日的科技预言家,从地震云的传说再到科学家猛攻的地震预测,人类一直希望能够更早突破局限看穿未来. 随着信息革命的深入,大数据时代的预测更加容易,人类的生活正在被大数据预测深刻改变.

MapR CEO对2016大数据的5个预测

- - 199IT互联网数据中心
MapR Converged Data Platform将Hadoop和Spark的强大功能与全局事件流、实时数据库能力与企业存储集成到了一起,用于开发与运行创新性的数据应用. MapR Platform由业界最快速、最可靠、安全且开放的数据基础设施所驱动,极大降低了TCO,并实现了全局的实时数据应用.

预测

- lhb - 不许联想
药家鑫和夏俊峰一个面临二审,一个面临死刑复核. 在此预测一下,药家鑫二审肯定是死刑,如果再死刑复核,估计也是死刑. 夏俊峰死刑复核我看翻盘机会也不大,也是死刑. 对比这两个人的命运,正好相反,一个是人民不让他活,一个是人民之外的人不让他活. 药家鑫是很简单的杀人事件,除非药家鑫有什么更硬的来头,否责难逃惩罚.

谈大数据(2)

- - 人月神话的BLOG
对于大数据,后面会作为一个系列来谈,大数据涉及的方面特别多,包括主数据,数据中心和ODS,SOA,云计算,业务BI等很多方面的内容. 前面看到一个提法,即大数据会让我们更加关注业务方面的内容,而云平台则更多是技术层面的内容. 对于大数据会先把各个理解的关键点谈完了,再系统来看大数据的完整解决方案和体系化.

大数据之惑

- - 互联网分析
算起来,接触大数据、和互联网之外的客户谈大数据也有快2年了. 也该是时候整理下一些感受,和大家分享下我看到的国内大数据应用的一些困惑了. 云和大数据,应该是近几年IT炒的最热的两个话题了. 在我看来,这两者之间的不同就是: 云是做新的瓶,装旧的酒; 大数据是找合适的瓶,酿新的酒. 云说到底是一种基础架构的革命.