Hadoop发行版选择

标签: 下一代MapReduce(YARN) Hadoop发行版 Hadoop版本选择 | 发表时间:2013-09-16 16:52 | 作者:Dong
出处:http://dongxicheng.org
作者: Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明
网址: http://dongxicheng.org/mapreduce-nextgen/hadoop-distribution-selection/
本博客的文章集合: http://dongxicheng.org/recommend/


重大消息:我的Hadoop新书《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》已经开始在各大网站销售了,购书链接地址: 当当购书网址京东购书网址卓越购书网址。新书官方宣传主页: http://hadoop123.com/


 

目前Hadoop发行版非常多,有华为发行版、Intel发行版、Cloudera发行版(CDH)等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,完全是由Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布/销售。( http://www.apache.org/licenses/LICENSE-2.0)。

目前而言,绝大多数公司发行版是收费的,比如Intel发行版、华为发行版等,尽管这些发行版增加了很多开源版本没有的新feature,但绝大多数公司选择Hadoop版本时会将把是否收费作为重要指标,目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”)、Hortonworks版本(Hortonworks Data Platform,简称“HDP”),对于国内而言,绝大多数选择CDH版本,主要理由如下:

(1) CDH对Hadoop版本的划分非常清晰,只有两个系列的版本,分别是cdh3和cdh4,分别对应第一代Hadoop(Hadoop 1.0)和第二代Hadoop(Hadoop 2.0),相比而言,Apache版本则混乱得多;

(2) CDH文档清晰,很多采用Apache版本的用户都会阅读cdh提供的文档,包括安装文档、升级文档等。

CDH与Apache版本是怎么对应的?cdh3版本是基于apache  hadoop  0.20.2改进的,并融入了最新的patch,目前看来,最新的cdh3u6基本可以对应到apache hadoop最新版本(Hadoop 1.x),而cdh3u1~cdh3u5与apache hadoop版本对应的关系不明确,因为cdh总是打入一些最新的patch进去,并比apache hadoop同功能版本提早发布。总体上说,apache和cdh版本功能上是一致的。

HDP版本是比较新的版本,目前与apache基本同步,因为Hortonworks内部大部分员工都是apache代码贡献者,尤其是Hadoop 2.0的贡献者。

此外,cdh4和apache hadoop 2.x版本属于下一代Hadoop(Hadoop 2.0),目前处于beta版,尚未发布稳定版,且目前使用的公司非常少,大部分处于调研阶段。

基于以上考虑,如果线上使用,推荐cdh3最新版本,即cdh3u6(相当于apache hadoop最新稳定版),下载地址为: http://archive.cloudera.com/cdh/3/

具体各个项目下载地址如下:

Hadoop内核(HDFS和MapReduce):

http://archive.cloudera.com/cdh/3/hadoop-0.20.2-cdh3u6.tar.gz

HBase:

http://archive.cloudera.com/cdh/3/hbase-0.90.6-cdh3u6.tar.gz

hive:

http://archive.cloudera.com/cdh/3/hive-0.7.1-cdh3u6.tar.gz

mahout:

http://archive.cloudera.com/cdh/3/mahout-0.5-cdh3u6.tar.gz

pig:

http://archive.cloudera.com/cdh/3/pig-0.8.1-cdh3u6.tar.gz

sqoop:

http://archive.cloudera.com/cdh/3/sqoop-1.3.0-cdh3u6.tar.gz

zookeeper:

http://archive.cloudera.com/cdh/3/zookeeper-3.3.5-cdh3u6.tar.gz

flume:

http://archive.cloudera.com/cdh/3/flume-0.9.4-cdh3u6.tar.gz

原创文章,转载请注明: 转载自 董的博客

本文链接地址: http://dongxicheng.org/mapreduce-nextgen/hadoop-distribution-selection/

作者: Dong,作者介绍: http://dongxicheng.org/about/

本博客的文章集合: http://dongxicheng.org/recommend/


Copyright © 2013
This feed is for personal, non-commercial use only.
The use of this feed on other websites breaches copyright. If this content is not in your news reader, it makes the page you are viewing an infringement of the copyright. (Digital Fingerprint:
)

相关 [hadoop 发行版 选择] 推荐:

Hadoop发行版选择

- - 董的博客
Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明. 网址: http://dongxicheng.org/mapreduce-nextgen/hadoop-distribution-selection/. 本博客的文章集合: http://dongxicheng.org/recommend/.

Hadoop版本选择探讨

- - 董的博客
Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明. 网址: http://dongxicheng.org/mapreduce-nextgen/how-to-select-hadoop-versions/. 由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼.

MapR发布最新Hadoop发行版,承诺无风险升级

- - IT经理网
MapR近日宣布3月份将发布最新的Hadoop发行版支持Hadoop2.2 与  YARN(下一代Hadoop资源规划器),向前兼容MapReduce1.x规划器,并向用户承诺无风险升级. 在兼容性方面,MapR与竞争对手Cloudera和Hortonworks的策略明显不同,MapR始终承诺向前兼容性,使企业用户能在相同节点上同时运行Hadoop MapReduce1.x和YARN.

Hadoop集群部署实战(cdh发行版)

- - 运维派
现就职于一家创业公司任职运维兼DBA,曾就职于猎豹移动,负责数据库团队,运维前线作者之一. 10.10.103.62             zkfc    journalNode  QuorumaPeerMain  datanode                      nodemanager.

为Hadoop集群选择合适的硬件配置

- - 服务器运维与网站架构|Linux运维|X研究
随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件. 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单.  选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性. (比如,IO密集型工作负载的用户将会为每个核心主轴投资更多).

Hadoop企业级搭建之-版本选择

- - 开源软件 - ITeye博客
太多选择——如何挑选合适的大数据或Hadoop平台?. 作者  Kai Wähner ,译者  王灵军 发布于 2013年10月9日 | 注意: ArchSummit全球架构师峰会(北京)2015年12月18-19日, 了解更多详情. 今年,大数据在很多公司都成为相关话题. 虽然没有一个标准的定义来解释何为 “大数据”,但在处理大数据上,Hadoop已经成为事实上的标准.

为生产服务器选择合适的Linux发行版

- Derek - 花开的地方
抛出这个问题,是因为之前与同事的争论以及最近与同事的争论——我可保持沉默,但不可以停止思考. 我想大多数有经验的Linux用户,会觉得这个问题不是问题,那么请不要急,待会儿我会让你知道这个问题为什么是个问题. 首先,在讨论这个问题之前, 我们一定要先了解自己的自身的条件:即我们自身的技术能力——假如我们有能力像RedHat、Google一样,自己跟踪Linux以及开源社区,那么,我们完成可以搞个自己用的发行出来.

5种流行的Linux发行版:选择你喜欢的Linux

- - 博客 - 伯乐在线
本文译自 iSystemAdmin 的 《 5 popular Linux Distributions: Select your Linux of choice》. 现如今,对于各种类型的用户(如桌面用户、服务器管理员、图形设计者等)而言Linux已经成为一种最流行的操作系统. Linux是免费且开源的,任何人都可以建立和编译它的源代码,并将它分发给别人.

为你的 Hadoop 集群选择合适的硬件 - 技术翻译 - 开源中国社区

- -
for  Hadoop) Cluster选择硬件. 选择机器配置类型的第一步就是理解你的运维团队已经在管理的硬件类型. 在购买新的硬件设备时,运维团队经常根据一定的观点或者强制需求来选择,并且他们倾向于工作在自己业已熟悉的平台类型上. Hadoop不是唯一的从规模效率上获益的系统. 再一次强调,作为更通用的建议,如果集群是新建立的或者你并不能准确的预估你的极限工作负载,我们建议你选择均衡的硬件类型.

Hadoop Streaming 编程

- - 学着站在巨人的肩膀上
Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:. 采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer). 本文安排如下,第二节介绍Hadoop Streaming的原理,第三节介绍Hadoop Streaming的使用方法,第四节介绍Hadoop Streaming的程序编写方法,在这一节中,用C++、C、shell脚本 和python实现了WordCount作业,第五节总结了常见的问题.