Hadoop升级方案(二):从Hadoop 1.0升级到2.0(2)

标签: 下一代MapReduce(YARN) Hadoop 2.0 Hadoop升级 | 发表时间:2013-10-24 11:10 | 作者:Dong
出处:http://dongxicheng.org
作者: Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明
网址: http://dongxicheng.org/mapreduce-nextgen/hadoop-upgrade-to-version-2-2/
本博客的文章集合: http://dongxicheng.org/recommend/


重大消息:我的Hadoop新书《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》已经开始在各大网站销售了,购书链接地址: 当当购书网址京东购书网址卓越购书网址。新书官方宣传主页: http://hadoop123.com/


在前一篇文章“ Hadoop升级方案(二):从Hadoop 1.0升级到2.0(1)”中,我已经介绍了如何从Hadoop 1.0升级到2.0,且启用2.0的HA功能。本文将重点介绍如何同时启动2.0的HA和federation功能。本文主要介绍配置方法,具体的升级流程和服务启动方式可参考前一篇文章。

1. 基础知识准备

由于Hadoop 2.0增加了很多新的特性,包括HDFS HA,HDFS Federation,新的资源管理系统YARN等,在部署Hadoop 2.0之前,你需要对这些特性有一个理论上的了解,推荐阅读以下资料:

(1)  HDFS Federation设计动机与基本原理

(2)  Hadoop 2.0中单点故障解决方案总结

(3) Hadoop YARN资料汇总

(4) Hadoop 2.2.0设计文档

2. 启用HA 和Federation

前面一篇文章介绍了HA的配置方法,即整个集群只有一个对外可用的namenode,同时为这个namenode增加一个backup namenode以解决HDFS单点故障问题,如下图所示:

为了启用federation,我们需再增加N个namenode,并为每个namenode添加一个backup namenode,以解决每个namenode的单点故障问题。本文介绍N=1的情况,其他情况类似。再增加一个namenode和backup namenode后,部署架构如下:

该结构的配置方法可参考 “Hadoop 2.0 NameNode HA和Federation实践”和“ Apache官网给出的Federation配置方法”。

3. 启用client side moutable table

当启用HDFS Federation功能时,由于存在多个namenode视图,可能会给用户使用带来不便,为此,可通过配置client-side mount table为用户提供一个统一HDFS访问视图,这是通过新引入的文件系统viewfs实现的,关于viewfs的介绍,可参考我的这篇文章“ HDFS Federation客户端(viewfs)配置攻略”。配有client-side mount table的客户端访问图如下:

同样,配置方法可参考 “Hadoop 2.0 NameNode HA和Federation实践”和“ User Guide for how to use viewfs with federation”。

原创文章,转载请注明: 转载自 董的博客

本文链接地址: http://dongxicheng.org/mapreduce-nextgen/hadoop-upgrade-to-version-2-2/

作者: Dong,作者介绍: http://dongxicheng.org/about/

本博客的文章集合: http://dongxicheng.org/recommend/


Copyright © 2013
This feed is for personal, non-commercial use only.
The use of this feed on other websites breaches copyright. If this content is not in your news reader, it makes the page you are viewing an infringement of the copyright. (Digital Fingerprint:
)

相关 [hadoop 升级 hadoop] 推荐:

Hadoop升级方案(一):Hadoop 1.0内部版本升级(初稿)

- - 董的博客
Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明. 网址: http://dongxicheng.org/mapreduce-nextgen/hadoop-upgrade-in-version-1/. 本博客的文章集合: http://dongxicheng.org/recommend/.

Hadoop升级方案(二):从Hadoop 1.0升级到2.0(2)

- - 董的博客
Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明. 网址: http://dongxicheng.org/mapreduce-nextgen/hadoop-upgrade-to-version-2-2/. 本博客的文章集合: http://dongxicheng.org/recommend/.

Hadoop Streaming 编程

- - 学着站在巨人的肩膀上
Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:. 采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer). 本文安排如下,第二节介绍Hadoop Streaming的原理,第三节介绍Hadoop Streaming的使用方法,第四节介绍Hadoop Streaming的程序编写方法,在这一节中,用C++、C、shell脚本 和python实现了WordCount作业,第五节总结了常见的问题.

Hadoop使用(一)

- Pei - 博客园-首页原创精华区
Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker组成. 其中NameNode,secondary NameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上.

Hadoop MapReduce技巧

- - 简单文本
我在使用Hadoop编写MapReduce程序时,遇到了一些问题,通过在Google上查询资料,并结合自己对Hadoop的理解,逐一解决了这些问题. Hadoop对MapReduce中Key与Value的类型是有要求的,简单说来,这些类型必须支持Hadoop的序列化. 为了提高序列化的性能,Hadoop还为Java中常见的基本类型提供了相应地支持序列化的类型,如IntWritable,LongWritable,并为String类型提供了Text类型.

Hadoop TaskScheduler浅析

- - kouu's home
TaskScheduler,顾名思义,就是MapReduce中的任务调度器. 在MapReduce中,JobTracker接收JobClient提交的Job,将它们按InputFormat的划分以及其他相关配置,生成若干个Map和Reduce任务. 然后,当一个TaskTracker通过心跳告知JobTracker自己还有空闲的任务Slot时,JobTracker就会向其分派任务.

HADOOP安装

- - OracleDBA Blog---三少个人自留地
最近有时间看看hadoop的一些东西,而且在测试的环境上做了一些搭建的工作. 首先,安装前需要做一些准备工作. 使用一台pcserver作为测试服务器,同时使用Oracle VM VirtualBox来作为虚拟机的服务器. 新建了三个虚拟机以后,安装linux,我安装的linux的版本是redhat linux 5.4 x64版本.

Hadoop Corona介绍

- - 董的博客
Dong | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明. 网址: http://dongxicheng.org/hadoop-corona/hadoop-corona/. Hadoop Corona是facebook开源的下一代MapReduce框架. 其基本设计动机和Apache的YARN一致,在此不再重复,读者可参考我的这篇文章 “下一代Apache Hadoop MapReduce框架的架构”.

Hadoop RPC机制

- - 企业架构 - ITeye博客
RPC(Remote Procedure Call Protocol)远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议. Hadoop底层的交互都是通过 rpc进行的. 例如:datanode和namenode 、tasktracker和jobtracker、secondary namenode和namenode之间的通信都是通过rpc实现的.

Hadoop Rumen介绍

- - 董的博客
Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明. 网址: http://dongxicheng.org/mapreduce/hadoop-rumen-introduction/. 什么是Hadoop Rumen?. Hadoop Rumen是为Hadoop MapReduce设计的日志解析和分析工具,它能够将JobHistory 日志解析成有意义的数据并格式化存储.