云计算架构Hadoop:从小象变大象的发展历程

标签: DataBase Hadoop Linux 互联网 外文翻译 | 发表时间:2012-06-13 10:40 | 作者:谋万世全局者
出处:http://www.ha97.com

由于具备低成本和前所未有的高扩展性,Hadoop已被公认为是新一代的大数据处理平台。就像30年前SQL(Structured Query Language)出现一样,Hadoop正带来了新一轮的数据革命。如今Hadoop已从初出茅庐的小象变成了行业的巨人,但Hadoop仍需继续完善。

基于Java语言构建的Hadoop框架实际上一种分布式处理大数据平台,其包括软件和众多子项目。在近十年中Hadoop已成为大数据革命的中心。MapReduce作为Hadoop的核心是一种处理大型及超大型数据集(TB级别的数据。包括网络点击产生的流数据、日志文件、社交网络等所带来的数据)并生成相关的执行的编程模型。其主要思想是从函数式编程语言借鉴而来的,同时也包含了从矢量编程语言借鉴的特性。

互联网巨头Yahoo!作为Hadoop框架的先驱研究者,在6年时间已经将Hadoop塑造成了极为成功的技术。但相比于SQL,Hadoop在某些方面仍然显得不够完善。这直接导致现今所有目光都集中在Hadoop供应商的身上。包括Amazon、Cloudera等公司带来众多的创新并提供强大的工具。Cloudera推出的CHD3包含众多的附加软件,可以帮助管理、运行Hadoop上的复杂任务,例如:Apache Mahout、Flume、Sqoop、Pig、Oozie、Hive、HBase、ZooKeeper、Whirr等。同时Cloudera也是目前最大的提供企业Hadoop技术支持和培训的厂商。而Amazon是较早在公共云中运行Hadoop的公司,其提供的基于MapReduce的弹性计算可提供海量的数据计算服务。

但数据处理只是大数据处理的一部分,组织最终想要得到的是经过分析后的有价值的数据。商业智能和数据分析厂商如Datameer、Hadapt以及Karmasphere就显的不可或缺。

Hadoop在2011年证明自身的价值,最明显的迹象就是五大数据库管理软件供应商EMC、IBM、Informatica、Microsoft以及Oracle都投入了Hadoop的怀抱。EMC与MapR展开合作,而Microsoft和Oracle则分别与Hortonworks和Cloudera展开了合作。而EMC和Oracle已经推出了Hadoop专有设备。下面就让我们来看一下Hadoop在大数据领域都俘虏了那些公司的心。

Amazon基于MapReduce的服务

Amazon早在2009年就推出了基于Hadoop MapReduce的EC2(Elastic Compute Cloud)服务。因此Amazon在应对用户应用和需求上显得胸有成竹。无论是中小型企业还是超大型的组织,基于MapReduce的EC2服务都经受住了考验。同时AWS(Amazon Web Service)还包括Amazon S3(Simple storage Service)。Amazon S3可提供高伸缩性、靠可靠性、高可用性以及极低的存储成本。利用AWS可高效的处理数据密集型的任务,如Web索引、数据挖掘、日志文件分析、机器学习以及科技和生物信息的学术研究。

Cloudera提供安全的Hadoop平台

Cloudera也是比较早的大规模Hadoop软件和服务提供商。Cloudera一直专注于将开源的Apache Hadoop完善成可靠的平台。Cloudera目前拥有100多家客户,并且在本月还与Oracle展开合作,共同进军大数据领域。

在Cloudera提供了用于管理大数据的管理控制台和负责管理Hadoop部署的工具以及企业级的支持。Cloudera的管理工具提供基于向导式的Hadoop安装和配置菜单。同时提供相应的工具,以帮助系统管理员监控平台的健康状况、诊断问题、优化性能,并进行所需的配置和安全变更。而Cloudera的企业级支持与服务包括配置检查、升级和与第三方系统集成以及其他技术资源。现今Cloudera管理软件现在的价格是每节点每年4000美元(不包括硬件)。

Datameer将大数据与商业智能有机结合

Datameer宣称其公司基于Hadoop平台的产品方案DAS(Datameer Analytics Solution)非常适用于商业智能(BI)。Datameer可通过JDBC、Hive、Http连接任何的数据源。同时包括一个向导驱动集成平台,可安排负载并从任何结构化、半结构化和非结构化的大数据集。Datameer的大数据分析解决方案通过表格接口整合Hadoop的数据挖掘能力。并通过REST API在私有云和公共云中输入和输出数据。

EMC的统一数据分析平台

EMC推出用于支持大数据分析的平台――EMC Greenplum统一分析平台(UAP)。Greenplum UAP是一个唯一的统一数据分析平台,可扩展至其他工具,其独特之处在于,它将对大数据的认知和分享贯穿整个分析过程,实现比以往更高的商业价值。UAP包括EMC Greenplum 关系数据库、EMC Greenplum HD Hadoop以及EMC Greenplum Chorus。UAP就好比一个数据分析团队,包括了从数据科学家和BI分析师到DBA和在线商业用户和管理者。EMC针对硬件设备DCA(Data Computing Appliance),其足以运行EMC Greenplum 关系数据库和EMC Greenplum HD节点。DCA提供控制管理界面,方便管理人员监视、管理Greenplum数据库和Hadoop系统性能。

Hadapt与Hadoop环境无缝集成

Hive作为运行在Hadoop上的数据仓库组件并不像Hadoop那样受人关注。而Hadapt则提供集众多功能于一身的数据分析环境,旨在处理存在于Hadoop和SQL环境中传统结构化的数据。Hadapt平台可运行在私有云和公共云之上,并提供从一个环境访问数据的能力。包括现有基于SQL的工具以及MapReduce处理和大数据分析。Hadapt自动分开执行Hadoop和关系数据库之间的查询,处分利用了Hadoop的高扩展性和关系数据库的高速性。

Hortonworks继承Yahoo! Hadoop衣钵

Yahoo!在去年剥离了Hadoop业务,并与硅谷风投公司Benchmark Capital合资组建一家名为Hortonworks的公司。新公司包含在Yahoo!贡献最大的50名工程师,旨在继续推动Hadoop的发展。Hortonworks高管断言这支以Yahoo!开发团队为班底的公司将会贡献更多的Hadoop代码,并指引Hadoop平台未来的发展。Hortonworks已在去年10月与微软成为合作伙伴关系。Hortonworks可帮助Microsoft推出Windows平台之上的Hadoop。Hortonworks在去年11月也推出了自由的HDP(Hortonworks Data Platform)V1,而结合了最新0.23版Hadoop的HDP V2将在2012年第一季度推出。Hortonworks还提供Hadoop的培训与支持,加强在这方面与Cloudera和MapR的竞争。

IBM的Hadoop之路

IBM在多年以前就开始研究Hadoop。现今IBM提供基于云服务的海量数据分析方面多种方案的选择,但目前IBM的策略似乎主要是围绕Hadoop在发展。IBM在4月推出了其SmartCloud云计算平台。并承诺改善Hadoop工作负载。IBM提供了基于Hadoop的InfoSphere BigInsights(IBM InfoSphere BigInsights是用于分析和虚拟化海量数据的软件和服务,这款新产品由 Apache Hadoop 提供技术支持。)基本版和企业版。 InfoSphere BigInsights之前作为IBM测试和开发的云产品,现在被SmartCloud取代。

Informatica 向云更进一步

大多数的数据管理软件供应商(如IBM、Oracle、Syncsort、Talend)都涉及到Hadoop。Informatica在去年10月也推出了Hadoop环境下的数据编译转换解决方案――HParser。

该方案可以运行在几乎所有的Apache Hadoop分布式环境中,与MapReduce架构平行,能高效率地把无结构的复杂数据――诸如网络记录、社交媒体数据、通话详细记录以及其他数据格式――转换为Hadoop中结构或半结构格式。当把数据转化为更具结构性的格式后,便可以得到更快速的使用和生效,从而驱动业务发展、提高运营效率。

Karmasphere Hadoop数据分析利器

Karmasphere提供了直接访问Hadoop中结构化和非结构化数据以及进一步分析查询的特性,同时Karmasphere还提供的可视化工作空间。Karmasphere提供的可视化工具提供了SQL或其他特定查询语言分析位于Amazon S3、工作流以及本地文件系统上的结构化和非结构数据的特性。企业还可以使用数据库或相关工具(例如Excel)来提取分析得出的数据。

MapR带来更高性能的Hadoop

MapR在Hadoop的舞台上显得格外耀眼,其提供Hadoop非常独特。MapR基于开源Hadoop,在只需有限硬件的环境中提供更快的Hadoop。同时Mapr配备了快照,并号称不会出现SPOF单节点故障,且被认为是与现有HDFS的API兼容。因此非常容易替换原有的系统。MapR最新的0.23版解决许多开源Hadoop的缺陷。而MapR与EMC的合作体现在了EMC Greenplum HD Enterprise Edition上,其就是基于MapR M5构建的。

Microsoft全面拥抱Hadoop

当EMC、IBM、Oracle都在2011年涉及Hadoop时,Microsoft全面拥抱Hadoop的举动就显得不足为奇了。而Hadoop的Windows Server将在在2012年推出,届时其还会与微软现有的BI工具联合处理任务。去年微软表示推出Windows Azure上的Hadoop预览版,微软还使Hadoop的数据通过部署在基于云的Windows Azure获取。并使其能够与企业的商业智能工具一起分析数据。微软目前正与Hortonworks合作旨在努力简化下载、安装和配置等几个Hadoop的相关技术。包括HDFS、Hive、Pig。这将有利于企业通过Hadoop拓宽自身的业务。微软将编写新的ODBC驱动程序并扩展自己现有的查询系统到Hive。这样一来用户将能够直接从Excel、PowerView执行Hadoop查询。

Oracle进军云计算

Oracle在2011 Oracle全球大会上宣布推出了Oracle Big Data Appliance。Big Data Appliance是一个集成了Hadoop、NoSQL Database、Oracle数据库Hadoop适配器、Oracle数据库Hadoop装载器及R语言的系统。Oracle还在今年1月与Cloudera成为合作伙伴关系。Oracle现已将Cloudera Distribution Including Apache Hadoop(CDH)和Cloudera Manager集成到Oracle大数据机之中。Oracle也将利用Cloudera在Hadoop领域的专业知识提供培训及咨询业务。Oracle大数据机中运行了Oracle Linux操作系统,1个机架中包含18个Oracle-Sun服务器,共计216个核心,同时具备864GB的内存和648TB的存储能力,其售价为45万美元。(李智/编译)

原文链接: informationweek

翻译:http://cloud.csdn.net/a/20120203/311398.html

相关 [云计算 架构 hadoop] 推荐:

云计算架构Hadoop:从小象变大象的发展历程

- - 服务器运维与网站架构|Linux运维|互联网研究
由于具备低成本和前所未有的高扩展性,Hadoop已被公认为是新一代的大数据处理平台. 就像30年前SQL(Structured Query Language)出现一样,Hadoop正带来了新一轮的数据革命. 如今Hadoop已从初出茅庐的小象变成了行业的巨人,但Hadoop仍需继续完善. 基于Java语言构建的Hadoop框架实际上一种分布式处理大数据平台,其包括软件和众多子项目.

大数据架构hadoop

- - CSDN博客云计算推荐文章
摘要:Admaster数据挖掘总监 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求. 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求.

IT企业利用云计算平台Hadoop的10种方式

- - 博客园_新闻
如果你是世界上广大 Hadoop 用户的一员,你肯定知道 Google 曾经靠着分布式计算技术(Hadoop),在搜索引擎和广告方面取得了举世瞩目的成就. 现在的 Hadoop 不仅是当年的老二 Yahoo 的专用产品了,从 Hadoop 长长的用户名单中,可以看到 Facebook, 可以看到 Linkedin,可以看到 Amazon,可以看到 EMC, eBay,Tweeter,IBM, Microsoft, Apple, HP….

Hadoop Metrics体系架构分析

- - 非技术 - ITeye博客
原文: http://blog.csdn.net/chenpingbupt/article/details/7957396. 本文基于Hadoop 0.20.XX版本分析,和现在的Metrics2稍有不同. Hadoop Metrics用来统计集群运行数据,比如接口调用次数,响应时间,队列长度等等,现阶段(0.19版本)支持为数不多的几个层级的数据,分别是dfs,jvm,rpc,mepred等.

王家林“云计算分布式大数据Hadoop实战高手之路---从零开始”的第一讲Hadoop图文训练课程:10分钟理解云计算分布式大数据处理框架Hadoop

- - CSDN博客云计算推荐文章
                                                                                                                                                     .

云计算中心的基石,ARM架构?

- jin - 弯曲评论
本文是2010-6-2号的《最新云计算信息》,希望大家能喜欢. 虽然Intel的ATOM系列芯片已经在功耗和性能等方面有了极大地提高,但是随着诸如iPad,iPhone和Windows 7 CTP的推出,使的在云客户端方面,ARM结构已经独领风骚了,而且其更开始涉足后台的云计算中心. 本文将通过介绍ARM架构在服务器领域的一些新的动态和其它方面的信息,来深入探讨ARM结构是否能在今后替代X86架构成为云计算中心的基石.

云计算环境下的应用架构设计

- - 博客园_知识库
  作者从云计算环境下应用的特点出发,分析了在云计算环境下应用程序开发设计的一些新变化. 根据这些特点,本文提出一个“自我感知应用”(Self-Sensing Application)的新概念,接着以Windows Azure平台为例阐述如何实现自我感知应用.   多年来应用程序开发者和架构师们都在努力设计一种既能够在功能上满足当前业务需求,又能够适应用户需求发生变化或者能够在可预见的将来适应环境变化的应用.

关于云计算基础架构IaaS层的几点看法

- - 服务器运维与网站架构|Linux运维|X研究
PS:本文作者是前盛大云CEO、Ucloud创始人季昕华,本人的工作经历使然对此文观点比较同感,也是比较不错的云计算IaaS层概念科普文. 特记录如下: 真实的云计算什么样. 云计算对普通用户来说,总是一个云里雾里的话题. 本文从最基础的概念开始科普,说明了四个常见的错误理解,和作者的四个猜想. IaaS(Infrastructure as a Service),指基础设施即服务,消费者通过Internet可以从完善的计算机基础设施获得服务.

基于Hadoop的Clearinghouse系统架构设计

- - CSDN博客架构设计推荐文章
1 Clearinghouse(数据交换中心)介绍.        Clearinghouse(数据交换中心)是随着异构组织之间共享空间数据而产生的,它的目标是建立一个虚拟空间数据机制,用来收集空间数据的元数据和发布服务,以便高效的获取空间数据,同时利用空间数据提供决策支持. 通常建立Clearinghouse的基本途径是通过一套元数据标准,收集各个组织中空间数据的元数据,通过服务接口帮助用户确定存在哪些数据,以及获取这些数据的方式等.

云计算软件公司 Joyent 获得 8500 万美元投资,帮助企业部署电信运营级别云计算基础架构平台

- - 36氪
Joyent 是一家云计算软件和服务提供商,它的云端软件套件 SmartDataCenter (智能数据中心)帮助全球的开发商和企业部署云计算基础架构平台. 今天公司 宣布获得 8500 万美元的投资. SmartDataCenter 可以让客户快速部署电信运营商级别的云服务,它可以很好的与现有运营系统兼容,同时它支持 PaaS 和 IaaS.