hadoop配置手册

标签: hadoop | 发表时间:2012-05-14 20:15 | 作者:
出处:http://www.iteye.com

环境:

Hadoop-1 : 10.10.30.1  ( namehost : ip )

Hadoop-2:  10.10.30.2   ( namehost : ip )

 

部署步骤( JDK 安装不在描述)

1,  在每一台服务器上添加 hosts 记录

a)         Vi /etc/resole.conf

                         i.              Hadoop-1          10.10.30.1

                       ii.              Hadoop-2          10.10.30.2

2,  在 hadoop-1 上 ping hadoop-2 , ping 通正常

3,  在 hadoop-2 上 ping hadoop-1 , ping 通正常

4,  在每一台机器上分别创建 hadoop 用户(次用户名可自定义)

a)         Useradd hadoop

5,  设置 ssh 免密码登陆

Set 1 Hadoop-1

a)         [hadoop-1@root~]mkdir .ssh

b)         [hadoop-1@root~]ssh-keygen –t rsa

c)         [hadoop-1@root~]cd .ssh

d)         [hadoop-1@root~]cp id_rsa.pub authrized_keys

e)         Authrized_keys   scp 到其他所有的 hadoop 机器上

f)          Scp authrized_keys hadoop-2:/home/  需要输入 hadoop 用户名和密码

Set2 hadoop-2

         a)[hadoop-2@hadoop~]mkdir .ssh

        b)[hadoop-2@hadoop~]cp authrized_keys .ssh

         c)[hadoop-2@hadoop~]chmod 755 .ssh

         d)[hadoop-2@hadoop~]chmod 644 .ssh/ authrized_keys

这一步非常关键,必须保证 authorized_keys 只对其所有者有读写权限,其他人不允许有写的权限,否则 SSH 是不会工作的。

g)         测试是否可无密码登陆

6,   Hadoop 安装

a)         mkdir /home/hadoop/hadoop/tmp

b)         mkdir /home/hadoop/hadoop/data

c)         mkdir /home/hadoop/hadoop/name

d)         将 hadoop 包解压的对应的目录

                         i.              Conf 为 hadoop 所有配置文件的存放位置

                       ii.              vi hadoop/conf/core-site.xml

1.         <name>hadoop.tmp.dir</name>

2.         <value>/home/hadoop/hadoop/tmp</value>   #hadoop 临时目录存放位置

3.           <name> fs.default.name </name>

4.            <value>hdfs:// 192.168.0.56:7771 </value>  hadoop 对外访问的 ip : port

                      iii.              vi hadoop/conf/hadoop-env.sh

1.         9 行 export JAVA_HOME=/tools/java 修改对应的 java 目录

                      iv.              vi hadoop/conf/hdfs-site.xml 

1.         <configuration>

2.                 <!--property>

3.                         <name>dfs.name.dir</name>

4.                         <value>/home/hadoop/hadoop/name</value>

5.                 </property-->

6.                 <property>

7.                         <name>dfs.data.dir</name>

8.                         <value>/home/hadoop/hadoop/data</value>

9.                 </property>

10.             <property>

11.                     <name>dfs.replication</name>

12.                     <value>3</value>

13.             </property>

14.      </configuration>

a)         修改想对应 name 和 data 的存放位置,其他不需要修改

                       v.              Vi  hadoop/conf/master   直接添加 hadoop   master 的主机名

                      vi.              Vi  hadoop/conf/slave   直接添加 hadoop    slave 的所有主机名(每个主机一行)

                    vii.              Vi hadoop/conf/mapred-site.xml

1.         <configuration>

2.                 <property>

3.                         <name>mapred.job.tracker</name>

4.                         <value> 192.168.0.56:8888 </value>

5.                 </property>

6.         </configuration>

a)         修改 mapred 的工作 ip : port       

7,  进入 hadoop 的 bin 目录 , sbin/start-dfs.sh 启动

8,  使用 jps 命令查看正常与否

                                                     i.              [root@map1 conf]# jps      master 的 jps 输出

5365 NameNode

5557 SecondaryNameNode

5649 JobTracker



已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [hadoop] 推荐:

Hadoop Streaming 编程

- - 学着站在巨人的肩膀上
Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:. 采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer). 本文安排如下,第二节介绍Hadoop Streaming的原理,第三节介绍Hadoop Streaming的使用方法,第四节介绍Hadoop Streaming的程序编写方法,在这一节中,用C++、C、shell脚本 和python实现了WordCount作业,第五节总结了常见的问题.

Hadoop使用(一)

- Pei - 博客园-首页原创精华区
Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker组成. 其中NameNode,secondary NameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上.

Hadoop MapReduce技巧

- - 简单文本
我在使用Hadoop编写MapReduce程序时,遇到了一些问题,通过在Google上查询资料,并结合自己对Hadoop的理解,逐一解决了这些问题. Hadoop对MapReduce中Key与Value的类型是有要求的,简单说来,这些类型必须支持Hadoop的序列化. 为了提高序列化的性能,Hadoop还为Java中常见的基本类型提供了相应地支持序列化的类型,如IntWritable,LongWritable,并为String类型提供了Text类型.

Hadoop TaskScheduler浅析

- - kouu&#39;s home
TaskScheduler,顾名思义,就是MapReduce中的任务调度器. 在MapReduce中,JobTracker接收JobClient提交的Job,将它们按InputFormat的划分以及其他相关配置,生成若干个Map和Reduce任务. 然后,当一个TaskTracker通过心跳告知JobTracker自己还有空闲的任务Slot时,JobTracker就会向其分派任务.

HADOOP安装

- - OracleDBA Blog---三少个人自留地
最近有时间看看hadoop的一些东西,而且在测试的环境上做了一些搭建的工作. 首先,安装前需要做一些准备工作. 使用一台pcserver作为测试服务器,同时使用Oracle VM VirtualBox来作为虚拟机的服务器. 新建了三个虚拟机以后,安装linux,我安装的linux的版本是redhat linux 5.4 x64版本.

Hadoop Corona介绍

- - 董的博客
Dong | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明. 网址: http://dongxicheng.org/hadoop-corona/hadoop-corona/. Hadoop Corona是facebook开源的下一代MapReduce框架. 其基本设计动机和Apache的YARN一致,在此不再重复,读者可参考我的这篇文章 “下一代Apache Hadoop MapReduce框架的架构”.

Hadoop RPC机制

- - 企业架构 - ITeye博客
RPC(Remote Procedure Call Protocol)远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议. Hadoop底层的交互都是通过 rpc进行的. 例如:datanode和namenode 、tasktracker和jobtracker、secondary namenode和namenode之间的通信都是通过rpc实现的.

Hadoop Rumen介绍

- - 董的博客
Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明. 网址: http://dongxicheng.org/mapreduce/hadoop-rumen-introduction/. 什么是Hadoop Rumen?. Hadoop Rumen是为Hadoop MapReduce设计的日志解析和分析工具,它能够将JobHistory 日志解析成有意义的数据并格式化存储.

Hadoop contrib介绍

- - 董的博客
Dong | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明. 网址: http://dongxicheng.org/mapreduce/hadoop-contrib/. Hadoop Contrib是Hadoop代码中第三方公司贡献的工具包,一般作为Hadoop kernel的扩展功能,它包含多个非常有用的扩展包,本文以Hadoop 1.0为例对Hadoop Contrib中的各个工具包进行介绍.

HADOOP SHUFFLE(转载)

- - 数据库 - ITeye博客
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方. 要想理解MapReduce,Shuffle是必须要了解的. 我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混. 前段时间在做MapReduce job性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟.