hadoop2.2.0集群安装

标签: hadoop2 集群 | 发表时间:2013-12-02 17:11 | 作者:jiangheng0535
出处:http://blog.csdn.net

说明:目前官方hadoop2.2只有32位的版本,安装到64位肯定有问题,比如执行jar包会提示没有本地库。。。。。。。。。如果要安装64位的,需要自己编译,这里不做阐述,一下都以32位说明。

环境:试验使用的虚拟机ubuntu12.04(32位)。Jdk使用的1.7(1.6也可以)。网络配置好,相互可以ping通,java环境安装完毕。

 

第一部分 Hadoop 2.2 下载

          Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。官方目前是提供了linux32位系统可执行文件,所以如果需要在64位系统上部署则需要单独下载src 源码自行编译(这里使用的32位)。

下载地址: http://apache.claz.org/hadoop/common/hadoop-2.2.0/

如下图所示,下载红色标记部分即可。如果要自行编译则下载src.tar.gz.

 

第二部分 Hadoop 2.2 安装准备

2.1java配置

第三部分 Hadoop 2.2 安装

3.1集群环境

         172.72.103.230   master

         172.72.103.231   node1       172.72.103.231   node2       172.72.103.231   node3

3.1.1修改主机名

         Vi  /etc/hostname,直接修改即可

3.1.2修改/etc/hosts

         172.72.103.230   master

         172.72.103.231   node1      

172.72.103.232   node2      

172.72.103.233   node3

3.1.3 master无密登录node节点和本身

在master节点上安装完成后会在~目录(当前用户主目录,即这里的/home/hadoop)下产生一个隐藏文件夹.ssh(ls  -a 可以查看隐藏文件)。如果没有这个文件,自己新建即可(mkdir .ssh)。

具体步骤如下:

1、进入.ssh文件夹

2、 ssh-keygen -t  rsa 之后一路回车(产生秘钥)

3、把id_rsa.pub 追加到授权的 key 里面去(cat id_rsa.pub >> authorized_keys)

4、重启 SSH 服务命令使其生效 :service ssh restart

此时已经可以进行ssh localhost的无密码登陆

     【注意】:以上操作在每台机器上面都要进行。(node节点无密登录自身不是必须的,可以省去,但是安装ssh与.ssh文件必须要有)

设置远程无密码登陆

这里只有master是master,如果有多个namenode,或者rm的话则需要打通所有master都其他剩余节点的免密码登陆。(将master的authorized_keys追加到所有node的authorized_keys后面)

3 .2 解压hadoop 文件

在每台机器上建立/opt(一定使用你要安装hadoop的用户操作,总之保证安装包都是hadoop用户所有即可)将hadoop包放入解压

3.3创建hadoop 的需要文件(元数据目录)

         在master上的/home/hadoop下创建如下目录

~/dfs/name

~/dfs/data

~/temp

这些目录是根据下面的配置文件里自己所写的路径创建,可以自己决定名称与路径

3.4配置文件

    这里要涉及到的配置文件有7个:

~/hadoop-2.2.0/etc/hadoop/hadoop-env.sh

~/hadoop-2.2.0/etc/hadoop/yarn-env.sh

~/hadoop-2.2.0/etc/hadoop/slaves

~/hadoop-2.2.0/etc/hadoop/core-site.xml

~/hadoop-2.2.0/etc/hadoop/hdfs-site.xml

~/hadoop-2.2.0/etc/hadoop/mapred-site.xml

~/hadoop-2.2.0/etc/hadoop/yarn-site.xml

以上个别文件默认不存在的,可以复制相应的template文件获得。

配置文件1:hadoop-env.sh

修改JAVA_HOME值(export JAVA_HOME=/usr/java/jdk1.7.0_40)

配置文件2:yarn-env.sh

修改JAVA_HOME值(exportJAVA_HOME=/usr/java/jdk1.7.0_40)

配置文件3:slaves (这个文件里面保存所有slave节点)

写入以下内容:

node1

node2

Node3

配置文件4:core-site.xml

<configuration>

                <property>

                                <name>fs.defaultFS</name>

                                <value>hdfs://master:9000</value>

                </property>

       <property>

                                <name>io.file.buffer.size</name>

                                <value>131072</value>

                </property>

       <property>

                                <name>hadoop.tmp.dir</name>

                                <value>file:/home/hadoop/tmp</value>

                                <description>Abase for other temporary directories.</description>

                </property>

        <property>

               <name>hadoop.proxyuser.hduser.hosts</name>

               <value>*</value>

       </property>

                 <property>

               <name>hadoop.proxyuser.hduser.groups</name>

               <value>*</value>

       </property>

</configuration>

配置文件5:hdfs-site.xml

<configuration>

       <property>

                <name>dfs.namenode.secondary.http-address</name>

               <value>master:9001</value>

        </property>

         <property>

                  <name>dfs.namenode.name.dir</name>

                 <value>file:/home/hadoop/dfs/name</value>

            </property>

           <property>

                    <name>dfs.datanode.data.dir</name>

                    <value>file:/home/hadoop/dfs/data</value>

            </property>

            <property>

                     <name>dfs.replication</name>

                     <value>3</value>

             </property>

             <property>

                     <name>dfs.webhdfs.enabled</name>

                     <value>true</value>

         </property>

</configuration>

配置文件6:mapred-site.xml

<configuration>

                <property>

                                <name>mapreduce.framework.name</name>

                                <value>yarn</value>

                </property>

                <property>

                                <name>mapreduce.jobhistory.address</name>

                                <value>master:10020</value>

                </property>

                <property>

               <name>mapreduce.jobhistory.webapp.address</name>

               <value>master:19888</value>

       </property>

</configuration>

配置文件7:yarn-site.xml

<configuration>

                 <property>

               <name>yarn.nodemanager.aux-services</name>

               <value>mapreduce_shuffle</value>

        </property>

                 <property>

               <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

               <value>org.apache.hadoop.mapred.ShuffleHandler</value>

        </property>

        <property>

               <name>yarn.resourcemanager.address</name>

               <value>master:8032</value>

       </property>

                <property>

               <name>yarn.resourcemanager.scheduler.address</name>

               <value> master:8030</value>

               </property>

               <property>

                       <name>yarn.resourcemanager.resource-tracker.address</name>

                        <value> master:8031</value>

               </property>

               <property>

                       <name>yarn.resourcemanager.admin.address</name>

                        <value> master:8033</value>

               </property>

                <property>

               <name>yarn.resourcemanager.webapp.address</name>

               <value> master:8088</value>

       </property>

</configuration>

以上配置在每个机器上都相同,也可以在一台配置后复制到其他节点。

3.5 启动验证

进入安装目录: cd  /opt/hadoop-2.2.0/

格式化namenode:./bin/hdfs namenode –format

启动hdfs: ./sbin/start-dfs.sh

此时在master上面运行的进程有:namenode secondarynamenode

各个node上面运行的进程有:datanode

启动yarn: ./sbin/start-yarn.sh

此时在master上面运行的进程有:namenode secondarynamenoderesourcemanager

各个node上面运行的进程有:datanode nodemanaget

在master上:

查看集群状态:./bin/hdfs dfsadmin –report

查看文件块组成:  ./bin/hdfsfsck / -files -blocks

查看HDFS:    http://172.72.103.230:50070

查看RM:    http:// 172.72.103.230:8088

 

作者:jiangheng0535 发表于2013-12-2 9:11:56 原文链接
阅读:115 评论:0 查看评论

相关 [hadoop2 集群] 推荐:

集群概念

- - 开源软件 - ITeye博客
        集群是一组协同工作的服务实体,用以提供比单一服务实体更具扩展性与可用性的服务平台. 在客户端看来,一个集群就象是一个服务实体,但 事实上集群由一组服务实体组成.         与单一服务实体相比较,集群提供了以下两个关键特性:.        1.可扩展性--集群的性能不限于单一的服务实体,新的服 务实体可以动态地加入到集群,从而增强集群的性能.

MYSQL集群介绍

- - 企业架构 - ITeye博客
MySQL Proxy是一个处于你的client端和MySQL server端之间的简单程序,它可以监测、分析或改变它们的通信. 它使用灵活,没有限制,常见的用途包括:负载平衡,故障、查询分析,查询过滤和修改等等. MySQL Proxy就是这么一个中间层代理,简单的说,MySQL Proxy就是一个连接池,负责将前台应用的连接请求转发给后台的数据库,并且通过使用lua脚本,可以实现复杂的连接控制和过滤,从而实现读写分离和负载平衡.

openfire3.9.1集群配置

- - 开源软件 - ITeye博客
1.CentOS-6.5-x86_64位服务器2台(虚拟机). 二: 安装CentOS-6.5-x86_64位服务器配置如下. 三:服务器安装完毕后配置:. [[email protected] ~]# service network restart 或 # /etc/init.d/network restart.

hadoop2.2.0集群安装

- - CSDN博客云计算推荐文章
说明:目前官方hadoop2.2只有32位的版本,安装到64位肯定有问题,比如执行jar包会提示没有本地库. 如果要安装64位的,需要自己编译,这里不做阐述,一下都以32位说明. 环境:试验使用的虚拟机ubuntu12.04(32位). Jdk使用的1.7(1.6也可以). 网络配置好,相互可以ping通,java环境安装完毕.

kafka集群安装

- - 互联网 - ITeye博客
kafka是LinkedIn开发并开源的一个分布式MQ系统,现在是Apache的一个孵化项目. 在它的主页描述kafka为一个高吞吐量的分布式(能将消息分散到不同的节点上)MQ. 在这片博文中,作者简单提到了开发kafka而不选择已有MQ系统的原因. Kafka仅仅由7000行Scala编写,据了解,Kafka每秒可以生产约25万消息(50 MB),每秒处理55万消息(110 MB).

tomcat集群配置

- - 互联网 - ITeye博客
OS环境:windows XP 32位. 服务器集群会比单机的TPS提高不少,也提高了系统的可用性,避免单机宕机影响整个系统不能运行,所以集群会比单机有众多优点. Apache的安装过程略. mod_jk.so使用的是tomcat-connectors-1.2.39-windows-i386-httpd-2.2.x版本,从名字可知,这个tomcat的connectors会对应多个Apache 2.2不同的版本.

elasticsearch集群搭建

- - zzm
之前对于CDN的日志处理模型是从 . logstash agent==>>redis==>>logstash index==>>elasticsearch==>>kibana3,对于elasticsearch集群搭建,可以把索引进行分片存储,一个索引可以分成若干个片,分别存储到集群里面,而对于集群里面的负载均衡,副本分配,索引动态均衡(根据节点的增加或者减少)都是elasticsearch自己内部完成的,一有情况就会重新进行分配.

oracle 集群学习

- - 数据库 - ITeye博客
原文: http://www.cnblogs.com/yinuo/articles/2703883.html. 数据库双机可以有两种不同的方式:双机热备份、双机集群. 双机热备份方式的集群完全通过操作系统的cluster软件来实现,在同一个时刻,只有一台机器对数据库作操作,当这台机器发生故障以后,由操作系统cluster将所有资源切换到两外一个节点,防止单节点数据库故障.

Elasticsearch集群入门

- - 编程语言 - ITeye博客
欢迎来到Elasticsearch的奇妙世界,它是优秀的全文检索和分析引擎. 不管你对Elasticsearch和全文检索有没有经验,都不要紧. 我们希望你可以通过这本书,学习并扩展Elasticsearch的知识. 由于这本书也是为初学者准备的,我们决定先简单介绍一般性的全文检索概念,接着再简要概述Elasticsearch.

Zookeeper集群搭建

- - 互联网 - ITeye博客
1. 为什么要使用zookeeper. (1) 大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程(如资源、任务分配等). (2) 目前,大部分应用需要开发私有的协调程序,缺乏一个通用机制. (3) 协调程序的反复编写浪费,且难以形成通用、伸缩性好的协调器. (4) ZooKeeper:提供通用版的分布式锁服务,用以协调分布式应.