Hadoop掀起大数据革命 三巨头齐发力

标签: hadoop 大数据 革命 | 发表时间:2011-12-27 17:44 | 作者:慕容鱼吐的新闻泡
出处:http://blog.163.com/moro80@126

导读:开源的数据处理平台凭借其低成本、高扩展性和灵活性的优势已经赢得了多数网络巨头的认可。现在Hadoop将进入更多企业。IBM将在明年推出内置NoSQL技术的DB2旗舰级数据库管理系统。上个月Oracle和Microsoft也分别透露了将计划在明年发布基于Hadoop的产品。两家公司都计划提供协助部署服务和企业级支持。Oracle已经承诺将会在大数据设备中预装Hadoop软件。

大数据革命正以Apache Hadoop为中心如火如荼的进行着。自从开源分布式数据处理平台在5年前发布时讨论之声就不绝于耳。但在过去的18个月中,Hadoop赢得了客户的认可,并得到众多商业化的支持以及众多数据库和数据集成软件商的整合。在众多厂商之中最著名的三个商业数据供应商当属Oracle、IBM和Microsoft。

Hadoop会在未来成为大数据的重大技术吗?

Hadoop是一个基于Java的分布式密集数据处理和数据分析的软件框架。Hadoop在很大程度上是受Google在2004年白皮书中阐述的MapReduce的技术启发。MapReduce工作原理是将任务分解为成百上千块的小任务,然后发送到计算机集群中。每台计算机再传送会自己那部分信息,MapReduce则迅速整合这些反馈并形成答案。

Hadoop的扩展性非常优秀,Hadoop可处理分布在数以千计的低成本X86服务器计算节点中的大型数据。同时由于众所周知的摩尔定律,内存和磁盘的容量也在不断增长。Hadoop对硬件的支持也在加强,现在每个节点可部署16核的处理器,12TB甚至24TB磁盘。Cloudera透露其推出的产品每个节点的成本大约4000美元。这个价格对于关系数据库部署每TB 10000至12000美元来说极具竞争优势。

这种高容量低成本的组合引人注目,但Hadoop最吸引人的是其处理混合数据类型的能力。

Hadoop可以管理结构化数据,以及诸如服务器日志文件和Web点击流的数据。同时还可以管理以非结构化文本为中心的数据,如Facebook和Twitter。这种处理多类型数据的能力非常重要。它催生了NoSQL平台和产品。如Cassandra, CouchDB, MongoDB以及Oracle最新的NoSQL数据库。而传统关系型数据库如Oracle,IBM DB2,Microsoft SQL Server和MySQL则都不能处理混合数据类型和非结构化数据。 由于事务处理灵活性的需求,Hadoop获得大多数数据分析厂商的关注和支持。

Hadoop已被广泛应用

现今,Hadoop已被认为是非结构化数据的专用技术。低成本、高扩展性和灵活性等优势已成为处理大规模点击流量分析和广告定位等网络巨头(如AOL和comScore)的首选。

AOL三年多时间一直使用Hadoop。AOL的研发团队在加利福尼亚州的Mountain View部署了300节点的系统,该系统可以存储每天数十亿事件和超过500TB的点击流数据。点击所带来流数据是高度结构化的,但数据量是非常庞大和多样的。所以几乎不可能处理所有的提取、转换和负载工作。AOL为了解决以上问题决定使用Hadoop MapReduce处理分布在数百个计算节点的数据过滤和关联任务。由于Hadoop为业务带来的优势,AOL的Hadoop研发团队在今年四月在其总部部署了700节点的系统。

Hadoop适用于所有类型数据的特性注定将使Hadoop在更广泛的领域使用。例如提供托管服务和中小型企业应用服务提供商SunGrad。他们将计划推出基于云的托管服务,旨在帮助金融服务公司处理他们基于Hadoop MapReduce的数据处理。

商用软件厂商Tidemark最近也推出一款SaaS软件,这种基于云的性能管理应用使用MapReduce将混合数据源转化为产品或金融规划方案。

三巨头大数据领域齐发力

在上月美国拉斯维加斯举行IOD年度大会上IBM院士、DB2总架构师Curt Cotner宣布IBM将在明年推出内置NoSQL技术的DB2旗舰级数据库管理系统。他还表示未来的数据库发展方向是非关系数据库NoSQL。目前Google的BigTable和Amazon的Dynamo都用NoSQL型数据库,而传统的关系数据库在应付超大规模、高并发的SNS、web2.0网站已经力不从心。同时IBM发布了一系列数据分析软件,包括云计算版本的InfoSphere BigInsights。BigInsights是一套建立在Hadoop上的数据分析软件,能够处理企业用户收集大量非结构化资料。

微软也在10月12日在西雅图举行的SQL PASS 2011峰会宣布将与从雅虎分拆出来的Hortonworks合作开发Hadoop,并将在Apache Hadoop上实现搭建Windows Azure以及Windows Server平台。同时基于Hadoop的Windows Server还会与微软现有的BI工具联合处理任务。

Oracle作为全球最大的关系型数据库提供商也有所行动。其在2011 Oracle全球大会上推出了Big Data Appliance。Big Data Appliance是一个集成了Hadoop、NoSQL Database、Oracle数据库Hadoop适配器、Oracle数据库Hadoop装载器及R语言的系统。

Hadoop的未来

根据目前的状况来看,Hadoop作为企业级数据仓库体系结构核心技术,在未来的数年中将会保持持续增长的势头。包括MapR、Zettaset、Cloudera、HStreaming、Hadapt、DataStax、Datameer这些与Hadoop相关的新公司已经获得投资,为人们所熟知,为各种市场带来最新技术。

与此同时下一代的MapReduce会完善很多之前不尽人如意的地方。首先节点数将从目前的4000增加到6000-10000,其次并发的任务数从目前的40000增加到100000。另外将继续加大对硬件支持,同时架构也会有所改变,包括更多编程模式的支持。

相关 [hadoop 大数据 革命] 推荐:

Hadoop掀起大数据革命 三巨头齐发力

- - 慕容鱼吐的新闻泡
导读:开源的数据处理平台凭借其低成本、高扩展性和灵活性的优势已经赢得了多数网络巨头的认可. 现在Hadoop将进入更多企业. IBM将在明年推出内置NoSQL技术的DB2旗舰级数据库管理系统. 上个月Oracle和Microsoft也分别透露了将计划在明年发布基于Hadoop的产品. 两家公司都计划提供协助部署服务和企业级支持.

大数据架构hadoop

- - CSDN博客云计算推荐文章
摘要:Admaster数据挖掘总监 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求. 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求.

大数据框架hadoop的序列化机制

- - ITeye博客
       对象的序列化(Serialization)用于将对象编码成一个字节流,以及从字节流中重新构建对象. “将一个对象编码成一个字节流”称为序列化该对象(Serializing);相反的处理过程称为反序列化(Deserializing). 1.1              Java内建序列化机制.

如何挑选合适的大数据或Hadoop平台

- - 互联网旁观者
今年,大数据在很多公司都成为相关话题. 虽然没有一个标准的定义来解释何为 “大数据”,但在处理大数据上,Hadoop已经成为事实上的标准. IBM、Oracle、SAP、甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop. 然而,当你已经决定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品.

大数据-Hadoop小文件问题解决方案

- - IT瘾-geek
HDFS中小文件是指文件size小于HDFS上block(. dfs.block.size)大小的文件. 大量的小文件会给Hadoop的扩展性和性能带来严重的影响. 动态分区插入数据,产生大量的小文件,从而导致map数量剧增. reduce数量越多,小文件也越多,reduce的个数和输出文件个数一致.

Oracle大数据机和连接器产品支持与Hadoop和Cloudera Manager集成

- - InfoQ cn
Oracle大数据机和大数据连接器软件支持与Hadoop、Cloudera Manager以及Oracle NoSQL数据库的集成. 上月Oracle 宣布携手Cloudera进军大数据机和连接器软件领域. 大数据机融合了Cloudera公司的 Apache Hadoop(CDH)和 Cloudera Manager管理应用,以及一个开源统计性编程语言 R.

自学大数据:用以生产环境的Hadoop版本比较

- - CSDN博客云计算推荐文章
生产环境中,hadoop的版本选择是一个公司架构之时,很重要的一个考虑因素. 这篇文章根据就谈谈现在主流的hadoop版本的比较. 如果有不同意见,或者指正,希望大家能交流. Apache Hadoop:Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架.

云营销:大数据时代的新营销革命

- - 互联网的一些事-关注互联网产品管理,交流产品设计、用户体验心得
  营销学领域过去半个多世纪的发展让我们见证了从“以产品为中心”向“以客户为中心”的转变,最受欢迎的营销理论也从“4P”转向了以消费者需求为导向的“4C”理论和以关系营销为导向的“4R”理论. 互联网与移动互联网主导下的数字化信息时代可以帮助企业以前所未有的速度收集用户的海量行为数据,在大数据的基础上分析、洞察、和预测消费者的偏好,并据此为消费者提供最能满足他们需求的产品、信息、和服务.

王家林“云计算分布式大数据Hadoop实战高手之路---从零开始”的第一讲Hadoop图文训练课程:10分钟理解云计算分布式大数据处理框架Hadoop

- - CSDN博客云计算推荐文章
                                                                                                                                                     .

为什么很多公司的大数据相关业务都基于 Hadoop 方案?

- - 知乎每日精选
选择Hadoop的原因最重要的就是这三点:1,可以解决问题; 2,成本低 ; 3,成熟的生态圈. 一,Hadoop帮助我们解决了什么问题. 无论国内还是国外的大公司对于数据都有着无穷无尽的渴望,都会想尽一切办法收集一切数据,. 因为通过信息的不对称性可以不断变现,而大量的信息是可以通过数据分析得到的.