hadoop分布式配置

标签: hadoop 分布 | 发表时间:2013-05-13 23:29 | 作者:aklixiaoyao
出处:http://blog.csdn.net

一、前面的部分见伪分布式配置。

二、实现SSH无密码登录远程主机(只在源主机上配置)

1.  scp authorized_keys slave2:~/.ssh/

     scp '/home/user/.ssh/authorized_keys'  192.168.0.5:~/.ssh/

注意:以上scp命令表示把authoriezd_keys远程复制到对应主机的相应目录下。单引号可以不加。slave2是目的主机的名字,需要在源主机的/etc/hosts下配置slave2以及对应的IP地址 192.168.0.5。不配置时可以直接用IP地址表示。 authorized_keys是用于进行无密码登录远程主机的公钥,在伪分布式配置中生成。

然后使用ssh slave2验证是否可以无密码登录。另外注意提前对每台主机进行改名,即在/etc/hostname下修改主机名。

三、修改hosts文件(每台主机上都配置,分机只需配置源主机和当前分机的名字和IP即可)

1.sudo gedit /etc/hosts 添加上每台主机名字和地址的映射。

192.168.0.4 aklixiaoyao

192.168.0.2 slave1 

192.168.0.5 slave2

四、修改hadoop文件(要在每台机器上都改)

1.修改hdfs-site.xml文件,改为2,表示分布式

configuration>

    <property>

        <name>dfs.replication</name>

        <value>2</value>

   </property>

         <property>

            <name>hadoop.tmp.dir</name>

            <value>/home/user/hadoop/tmp/</value>

         </property>

 </configuration>

2.修改conf/masters:(源主机,主机)(每台机器上都配置,分机和源主机都配置)

   aklixiaoyao(主机名)

3.修改 conf/slaves: (目的主机,分机)(每台机器上都配置,分机只配置源主机和当前分机的名字即可)

    slave1 

    slave2

4. 修改conf/core-site.xml: (每台机器都配置,注意其中必须填写源主机的名字aklixiaoyao)

<configuration>

   <property>

     <name>fs.default.name</name>

         <value>hdfs://aklixiaoyao:9000</value>

   </property>

</configuration>

5.修改conf/mapred-site.xml:(每台机器都配置,注意其中必须填写源主机的名字aklixiaoyao)

 <configuration>

    <property>

        <name>mapred.job.tracker</name>

        <value>aklixiaoyao:9001</value>

    </property>

 </configuration>

 

五、启动hadoop

1.使用hadoop命令,bin/hadoop/start-all.sh启动hadoop.

2.在主机(源主机)执行jps命令,出现如下结果表示成功

7671 NameNode

7920 SecondaryNameNode

8097 Jps

8006 JobTracker

3.在分机(目的主机)执行jps命令,出现如下结果表示成功

5192 DataNode

5392 Jps

5321 TaskTracker

 注意:如果在源主机上未出现namenode,则原因可能是重启机器时候tmp文件夹清空内容了,目前发现的方法是删除tmp/hadoop-user文件夹,然后执行hadoop命令格式化hadoop文件系统:

bin/hadoop namenode-format.

然后重新启动hadoop即可。

为了防止重启机器时候tmp文件夹清空内容了,可在hdfs-site.xml下创建临时目录:

 

 <configuration>

    <property>

        <name>dfs.replication</name>

       <value>2</value>

   </property>

         <property>

             <name>hadoop.tmp.dir</name>

            <value>/home/user/software/hadoop-0.20.2/tmp/</value>

         </property>

 </configuration>

 

 

 

作者:aklixiaoyao 发表于2013-5-13 23:29:42 原文链接
阅读:98 评论:0 查看评论

相关 [hadoop 分布] 推荐:

Hadoop与分布式计算

- 透明 - 丕子
写本文由leftnoteasy发布于http://leftnoteasy.cnblogs.com 本文可以被全部或者部分的使用,但请注明出处,如果有问题,可以联系wheeleast (at) gmail.com, 也可以加作者的新浪微博:http://weibo.com/leftnoteasy. 很久没有写写博客了,之前主要是换工作,耽误了很多的时间,让人也变得懒散,不想花大时间来写东西.

hadoop分布式配置

- - CSDN博客云计算推荐文章
一、前面的部分见伪分布式配置. 二、实现SSH无密码登录远程主机(只在源主机上配置). 注意:以上scp命令表示把authoriezd_keys远程复制到对应主机的相应目录下. slave2是目的主机的名字,需要在源主机的/etc/hosts下配置slave2以及对应的IP地址 192.168.0.5.

ubuntu下hadoop全分布安装

- - CSDN博客云计算推荐文章
个人历时3天遭遇各种问题才安装好,虽然网上很多教程,但是还是自己写一个总结一下. 转载请注明出处: http://hanlaiming.freetzi.com/?p=77. 1.在所有机器上安装ubuntu12.04,过程不赘述. 在安装过程中命名所有的用户名是hadoop,机器名分别为minglaihan,node1,node2,其中minglaihan作为主节点,其他两个是从节点.

分布式计算开源框架Hadoop入门实践

- - ITeye博客
一、分布式计算开源框架Hadoop实践. 在 SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到. 但是由于统计的内容暂时还是十分简单,所以就采用Memcache作为计数器,结合MySQL就完成了访问 控制以及统计的工作.

分布式集群环境hadoop、hbase、zookeeper搭建(全)

- - CSDN博客云计算推荐文章
集群环境至少需要3个节点(也就是3台服务器设备):1个Master,2个Slave,节点之间局域网连接,可以相互ping通,下面举例说明,配置节点IP分配如下:. 三个节点均使用centos 6.3系统,为了便于维护,集群环境配置项最好使用相同用户名、用户密码、相同hadoop、hbase、zookeeper目录结构.

分布式计算Hadoop近期学习总结

- - ITeye博客
  一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算. Hadoop框架中最核心设计就是:HDFS和MapReduce,HDFS实现存储,而MapReduce实现原理分析处理,这两部分是hadoop的核心.

HBase – 基于Hadoop的分布式数据库

- - ITeye博客
  修改:dataDir=/home/ysc/zookeeper. mkdir /home/ysc/zookeeper(注:dataDir是zookeeper的数据目录,需要手动创建). hbase存在系统时间同步的问题,并且误差要再30s以内. HBase是数据库,会在同一时间使用很多的文件句柄,大多数linux系统使用的默认值1024是不能满足的,还需要修改 hbase 用户的nproc,在压力很大的情况下,如果过低会造成 OutOfMemoryError异常.

hadoop编程:分析CSDN注册邮箱分布情况

- - CSDN博客云计算推荐文章
hadoop编程:分析CSDN注册邮箱分布情况. 本文博客链接: http://blog.csdn.net/jdh99,作者:jdh,转载请注明. 主机:Ubuntu10.04. hadoop版本:1.2.1. 开发工具:eclipse4.4.0. 要求:原始数据共6428632条,分析不同邮箱的注册情况,并按使用人数从大到小排序.

Spark:比Hadoop更强大的分布式数据计算项目

- - 标点符
Spark是一个由加州大学伯克利分校(UC Berkeley AMP)开发的一个分布式数据快速分析项目. 它的核心技术是弹性分布式数据集(Resilient distributed datasets),提供了比Hadoop更加丰富的MapReduce模型,可以快速在内存中对数据集进行多次迭代,来支持复杂的数据挖掘算法和图计算算法.

CentOS7-64bit 编译 Hadoop-2.5.0,并分布式安装

- - 企业架构 - ITeye博客
2.2 检查ssh安装情况,如果没有则安装ssh. 4.1 maven中央仓库的配置(改成oschina,增加访问速度). 4.2 编译完成之后,目录/usr/hadoop-2.5.0-src/hadoop-dist/target/hadoop-2.5.0. 5.2 配置所有slave节点. 5.3 修改hadoop-env.sh和yarn-env.sh.