Hadoop环境搭建

标签: 统计之都 hadoop java R rhadoop | 发表时间:2013-03-24 13:55 | 作者:张 丹
出处:http://cos.name

Author:张丹(Conan)
Date: 2013-03-21

Weibo: @Conan_Z
Email: bsspirit@gmail.com
Blog: http://www.fens.me/blog

APPs:
@晒粉丝 http://www.fens.me
@每日中国天气 http://apps.weibo.com/chinaweatherapp

RHadoop实践系列文章

RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题,可能会一去不复返了。

RHadoop实践是一套系列文章,主要包括”Hadoop环境搭建”,”RHadoop安装与使用”,”R实现MapReduce的算法案 例”,”HBase和rhbase的安装与使用”。对于单独的R语言爱好者,Java爱好者,或者Hadoop爱好者来说,同时具备三种语言知识并不容 易。此文虽为入门文章,但R,Java,Hadoop基础知识还是需要大家提前掌握。

第一篇 Hadoop环境搭建部分,分为3个章节。

  Haddop环境准备
Hadoop完全分步式集群搭建
HDFS测试

每一章节,都会分为”文字说明部分”和”代码部分”,保持文字说明与代码的连贯性。

Haddop环境准备

文字说明部分:

首先环境准备,这里我选择了Linux Ubuntu操作系统12.04的64位版本,大家可以根据自己的使用习惯选择顺手的Linux。

但JDK一定要用Oracle SUN官方的版本,请从官网下载,操作系统的自带的OpenJDK会有各种不兼容。JDK请选择1.6.x的版本,JDK1.7版本也会有各种的不兼容情况。
http://www.oracle.com/technetwork/java/javase/downloads/index.html

完全分步式的Hadoop集群,这个选择5台一样配置的虚拟机,通过内网的一个DNS服务器,指定5台虚拟机所对应的域名。
每台虚拟机,1G内存,系统硬盘2G,外接硬盘16G。hadoop会存储在外接硬盘上面。

外接硬盘,需要先进行格式化,然后创建目录,再mount到操作系统,通过修改/etc/fstab配置,系统每次重起都是自动加载外接硬盘。
(如果用户操作系统的硬盘够大,不用外接硬盘,这步可以省略)

接下来,为hadoop集群创建访问账号hadoop,创建访问组hadoop,创建用户目录/home/hadoop,把账号,组和用户目录绑定。

再为hadoop的hdfs创建存储位置/hadoop/conan/data0,给hadoop用户权限。

设置SSH自动登陆,从nn.qa.com虚拟机开始,通过ssh-keygen命令,生成id_rsa.pub,再合并到 authorized_keys的文件。再通过scp把authorized_keys复制到其他的虚拟机。循环生成authorized_keys并合并文件。使得5台虚拟机,都有了相互的SSH自动登陆的配置。

环境准备完成,参考下面代码部分,动手实现。

代码部分:

1. 操作系统Ubuntu 12.04 x64

  ~ uname -a
Linux domU-00-16-3e-00-00-85 3.2.0-23-generic #36-Ubuntu SMP Tue Apr 10 20:39:51 UTC 2012 x86_64 x86_64 x86_64 GNU/Linux

2. JAVA环境

  ~ java -version
java version "1.6.0_29"
Java(TM) SE Runtime Environment (build 1.6.0_29-b11)
Java HotSpot(TM) 64-Bit Server VM (build 20.4-b02, mixed mode)

3. Hadoop集群:5台机器,1个NameNode,4个DataNode,通过DNS指定域名

  虚拟机名字   域名     内存  硬盘
namenode:  nn.qa.com   1G  2G+16G
datanode1: dn0.qa.com 1G  2G+16G
datanode2: dn1.qa.com  1G  2G+16G
datanode3: dn2.qa.com  1G  2G+16G
datanode4: dn3.qa.com  1G  2G+16G

挂载硬盘16G

  1. mkfs.ext4 -j /dev/xvdb
2. mkdir /hadoop
3. mount /dev/xvdb /hadoop
4. vi /etc/fstab

    /dev/xvdb /hadoop ext4 noatime 0 1

创建hadoop账号和组

  1. groupadd hadoop
2. useradd hadoop -g hadoop;
3. passwd hadoop
4. mkdir /home/hadoop
5. chown -R hadoop:hadoop /home/hadoop

创建hadoop工作目录

  1. mkdir /hadoop/conan/data0
2. chown -R hadoop:hadoop /hadoop/conan/data0

配置ssh及密码

  nn.qa.com:
  1. su hadoop
  2. ssh-keygen -t rsa
  3. cd /home/hadoop/.ssh/
  4. cat id_rsa.pub >> authorized_keys
  5. scp authorized_keys dn0.qa.com:/home/hadoop/.ssh/

dn0.qa.com:
  1. su hadoop
  2. ssh-keygen -t rsa
  3. cd /home/hadoop/.ssh/
  4. cat id_rsa.pub >> authorized_keys
  5. scp authorized_keys dn1.qa.com:/home/hadoop/.ssh/

dn1.qa.com:
  1. su hadoop
  2. ssh-keygen -t rsa
  3. cd /home/hadoop/.ssh/
  4. cat id_rsa.pub >> authorized_keys
  5. scp authorized_keys dn2.qa.com:/home/hadoop/.ssh/

dn2.qa.com:
  1. su hadoop
  2. ssh-keygen -t rsa
  3. cd /home/hadoop/.ssh/
  4. cat id_rsa.pub >> authorized_keys
  5. scp authorized_keys dn3.qa.com:/home/hadoop/.ssh/

dn3.qa.com:
  1. su hadoop
  2. ssh-keygen -t rsa
  3. cd /home/hadoop/.ssh/
  4. cat id_rsa.pub >> authorized_keys
  5. scp authorized_keys nn.qa.com:/home/hadoop/.ssh/

nn.qa.com:
  1. su hadoop
  2. cd /home/hadoop/.ssh/
  3. scp authorized_keys dn0.qa.com:/home/hadoop/.ssh/
  4. scp authorized_keys dn1.qa.com:/home/hadoop/.ssh/
  5. scp authorized_keys dn2.qa.com:/home/hadoop/.ssh/
  6. scp authorized_keys dn3.qa.com:/home/hadoop/.ssh/

Hadoop完全分步式集群搭建

文字说明部分:

说明:本文以hadoop-0.20.2为例,与系列中其他几篇文章中的hadoop-1.0.3版本,安装和配置上是一样。

首先,我们在namenode(nn.qa.com)节点上面,下载hadoop。
修改hadoop配置文件hadoop-env.sh,hdfs-site.xml,core-site.xml,mapred-site.xml,设置master和slaves节点

把配置好的namenode(nn.qa.com)节点,用scp复制到其他4台虚拟机同样的目位置。

启动namenode(nn.qa.com)节点,
第一次启动时要先进行格式化,bin/hadoop namenode -format
启动hadoop,bin/start-all.sh
输入jps命令,可以看到所有Java的系统进程。 只要下面三个系统进程出现,SecondaryNameNode,JobTracker,NameNode,就恭喜你hadoop启动成功。
通过netstat -nl,可以检查系统打开的端口。其中包括,hdfs的9000,jobtracker的9001,namenode的web监控的50070,Map/Reduce的web监控的50030

其他的节点的测试检查是一样的,在这里就不重复说明了。

代码部分:

下载及配置hadoop

nn.qa.com:

  1. cd /hadoop/conan
2. wget http://mirror.bjtu.edu.cn/apache/hadoop/common/hadoop-0.20.2/hadoop-0.20.2.tar.gz
3. tar zxvf hadoop-0.20.2.tar.gz
4. cd /hadoop/conan/hadoop-0.20.2/conf
5. vi hadoop-env.sh
    export JAVA_HOME=/etc/java-config-2/current-system-vm
6. vi hdfs-site.xml

      <configuration>
        <property>
          <name>dfs.data.dir</name>
          <value>/hadoop/conan/data0</value>
        </property>
        <property>
          <name>dfs.replication</name>
          <value>2</value>
        </property>
      </configuration>

7. vi core-site.xml 

      <configuration>
      <property>
        <name>fs.default.name</name>
        <value>hdfs://nn.qa.com:9000</value>
      </property>
      </configuration>

8. vi mapred-site.xml

      <configuration>
      <property>
        <name>mapred.job.tracker</name>
        <value>nn.qa.com:9001</value>
      </property>
      </configuration>

9. vi masters

      nn.qa.com

10. vi slaves

      dn0.qa.com
      dn1.qa.com
      dn2.qa.com
      dn3.qa.com

同步hadoop配置到其他虚拟机

  1. cd /hadoop/conan
  2. scp -r ./hadoop-0.20.2 dn0.qa.com:/hadoop/conan
  3. scp -r ./hadoop-0.20.2 dn1.qa.com:/hadoop/conan
  4. scp -r ./hadoop-0.20.2 dn2.qa.com:/hadoop/conan
  5. scp -r ./hadoop-0.20.2 dn3.qa.com:/hadoop/conan

启动namenode节点

  1. cd /hadoop/conan/hadoop-0.29.2
  2. bin/hadoop namenode -format
  3. bin/start-all.sh

检查hadoop启动是否成功

  1. jps
        9362 Jps
    7756 SecondaryNameNode
    7531 JobTracker
    7357 NameNode
    
  2. netstat -nl
        Active Internet connections (only servers)
    Proto Recv-Q Send-Q Local Address           Foreign Address         State      
    tcp        0      0 0.0.0.0:22              0.0.0.0:*               LISTEN     
    tcp        0      0 0.0.0.0:5666            0.0.0.0:*               LISTEN     
    tcp        0      0 0.0.0.0:8649            0.0.0.0:*               LISTEN     
    tcp6       0      0 :::50070                :::*                    LISTEN     
    tcp6       0      0 :::22                   :::*                    LISTEN     
    tcp6       0      0 :::39418                :::*                    LISTEN     
    tcp6       0      0 :::32895                :::*                    LISTEN     
    tcp6       0      0 192.168.1.238:9000      :::*                    LISTEN     
    tcp6       0      0 192.168.1.238:9001      :::*                    LISTEN     
    tcp6       0      0 :::50090                :::*                    LISTEN     
    tcp6       0      0 :::51595                :::*                    LISTEN     
    tcp6       0      0 :::50030                :::*                    LISTEN     
    udp        0      0 239.2.11.71:8649        0.0.0.0:*  
    

HDFS测试

文字说明部分:

hadoop环境启动成功,我们进行一下hdfs的简单测试。
通过命令在hdfs上面,创建一个目录bin/hadoop fs -mkdir /test
通过命令复制一个本地文件到hdfs文件系统中,bin/hadoop fs -copyFormLocal README.txt /test
通过命令查看刚刚上传的文件bin/hadoop fs -ls /test

代码部分:

nn.qa.com:

  1. cd /hadoop/conan/hadoop-0.29.2
  2. bin/hadoop fs -mkdir /test
  3. bin/hadoop fs -copyFormLocal README.txt /test
  4. bin/hadoop fs -ls /test
        Found 1 items
    -rw-r--r--   2 hadoop supergroup       1366 2012-08-30 02:05 /test/README.txt
    

最后,恭喜你完成了,hadoop的完成分步式安装,环境成功搭建。

继续学习,请看第二篇 RHadoop实践系列文章之RHadoop安装与使用。

注:由于两篇文章并非同一时间所写,hadoop版本及操作系统,分步式环境都略有不同。
两篇文章相互独立,请大家在理解的基础上动手实验,不要完成依赖两篇文章中的运行命令。

相关 [hadoop 环境] 推荐:

Hadoop环境搭建

- - 统计之都
Author:张丹(Conan). @晒粉丝 http://www.fens.me. @每日中国天气 http://apps.weibo.com/chinaweatherapp. RHadoop实践系列文章. RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析. Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现.

hadoop集群环境的配置

- - ITeye博客
  之前说过,我们的hadoop集群已经搭建起来了,只是具体的步骤还没来得及整理,幸好今天又把流程走了一遍,真的是不做不晓得,一做才发现自己原来什么都忘记得差不多了,在此记录一下搭建hadoop集群的步骤,便于需要的时候看看.   这个配环境的过程真的是比较困难的,我今天搞了一天终于把自己的机器作为datanode连接上了master机器,我还是年前搞过一遍的呢,所以这个还是需要耐心+细心的.

基于Eclipse的Hadoop开发环境配置方法

- - CSDN博客推荐文章
(1)启动hadoop守护进程. 在Terminal中输入如下命令:. (2)在Eclipse上安装Hadoop插件. 找到hadoop的安装路径,我的是hadoop-0.20.2,将/home/wenqisun/hadoop-0.20.2/contrib/eclipse-plugin/下的hadoop-0.20.2- eclipse-plugin.jar拷贝到eclipse安装目录下的plugins里,我的是在/home/wenqisun/eclipse /plugins/下.

Hadoop集群安装&Hbase实验环境搭建

- - CSDN博客云计算推荐文章
1.安装ubuntu10.04操作系统. 安装成功后,系统也会有相应提示:. sudo vi /etc/inetd.conf并加入以下一行. sudo vi /etc/xinetd.conf并加入以下内容:. sudo vi /etc/xinetd.d/telnet并加入以下内容:. 重启机器或重启网络服务sudo /etc/init.d/xinetd restart.

分布式集群环境hadoop、hbase、zookeeper搭建(全)

- - CSDN博客云计算推荐文章
集群环境至少需要3个节点(也就是3台服务器设备):1个Master,2个Slave,节点之间局域网连接,可以相互ping通,下面举例说明,配置节点IP分配如下:. 三个节点均使用centos 6.3系统,为了便于维护,集群环境配置项最好使用相同用户名、用户密码、相同hadoop、hbase、zookeeper目录结构.

windows 7 with eclipse 下hadoop应用开发环境搭建

- - CSDN博客云计算推荐文章
最近开始着手高校云平台的搭建,前些天做了hadoop集群测试环境的安装与配置的经验分享, 这篇文章主要介绍win7 64位下 eclipse4.2 连接远程Redhat Linux 5下hadoop-1.2.0集群开发环境搭建. 1、window 7 64位. 三、安装配置hadoop集群. 四、在Eclipse下安装配置hadoop插件.

(CentOS)hadoop环境搭建,及期间遇到的问题

- - CSDN博客架构设计推荐文章
(一)hadoop集群搭建准备,准备3台机器. 首先安装jdk 到/usr/local/jdk(具体就不说了),然后配置文件/etc/profile,添加如下. 然后输入$source /etc/profile立即生效$java -version验证一下就ok了. (二)然后修改个机器的主机名和配置网络.

hadoop环境配置过程中可能遇到问题的解决方案

- - CSDN博客架构设计推荐文章
遇到此问题一般是jar包冲突的问题. 一种情况是我们向java的lib目录添加我们自己的jar包导致hadoop引用jar包的冲突. 解决方案就是删除我们自己向系统添加的jar包,重新配置. 将自己的jar包或者外部jar放入系统目录会在编译程序时带来方便,但是这不是一种好习惯,我们应该通过修改CLASSPATH的方式指定jar包路径.

自学大数据:用以生产环境的Hadoop版本比较

- - CSDN博客云计算推荐文章
生产环境中,hadoop的版本选择是一个公司架构之时,很重要的一个考虑因素. 这篇文章根据就谈谈现在主流的hadoop版本的比较. 如果有不同意见,或者指正,希望大家能交流. Apache Hadoop:Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架.

Hadoop Streaming 编程

- - 学着站在巨人的肩膀上
Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:. 采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer). 本文安排如下,第二节介绍Hadoop Streaming的原理,第三节介绍Hadoop Streaming的使用方法,第四节介绍Hadoop Streaming的程序编写方法,在这一节中,用C++、C、shell脚本 和python实现了WordCount作业,第五节总结了常见的问题.