手动安装Hadoop Cloudera CDH4.2版本

Hadoop一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streaming access）文件系统中的数据。

1.2 为什么选择CDH版本?

Ø CDH基于稳定版Apache Hadoop，并应用了最新Bug修复或者Feature的Patch。Cloudera常年坚持季度发行Update版本，年度发行Release版本，更新速度比Apache官方快，而且在实际使用过程中CDH表现无比稳定，并没有引入新的问题。

Ø Cloudera官方网站上安装、升级文档详细，省去Google时间。

Ø CDH支持Yum/Apt包，Tar包，RPM包，Cloudera Manager四种方式安装

Ø 获取最新特性和最新Bug修复；安装维护方便，节省运维时间

1.3 集群配置环境

[root@master01 ~]# lsb_release -a

LSBVersion: :base-4.0-ia32:base-4.0-noarch:core-4.0-ia32:core-4.0-noarch:graphics-4.0-ia32:graphics-4.0-noarch:printing-4.0-ia32:printing-4.0-noarch

Distributor ID: CentOS

Description: CentOS release 6.4 (Final)

Release: 6.4

Codename: Final

1.4 网络结构图

第2章安装hadoop环境

2.1 准备安装包

jdk-7-linux-i586.rpm [77.2M]

hadoop-2.0.0-cdh4.2.0 [129M] 此安装包URL下载： http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html

2.2 默认用户组root:root

2.3 卸载自带的jdk

[root@master01 local]# rpm -qa | grep jdk

java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.i686

yum -y remove java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.i686

yum -y remove java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.i686

2.4 安装和配置jdk环境

[root@master01 local]# rpm -ivh jdk-7-linux-i586.rpm

Preparing... ########################################### [100%]

1:jdk ########################################### [100%]

& 注意

下面有设置JAVA_HOME环境的清单，写在~/.bashrc.sh文件里

另外请注意：生产环境下一般为64位机，请下载相应的64位JDK包进行安装

2.5 配置/etc/hosts

vi /etc/hosts

192.168.2.18 master01

192.168.2.19 master02

192.168.2.163 slave01

192.168.2.38 slave02

192.168.2.212 slave03

& 注意：其他机器也要修改

rsync -vzrtopgu --progress /etc/hosts 192.168.2.38:/etc/hosts

2.6 配置ssh无密码登陆

ssh-keygen -t rsa

ssh-copy-id -i ~/.ssh/id_rsa.pub root@slave01

ssh-copy-id -i ~/.ssh/id_rsa.pub root@slave02

& 注意

Master01机本身也要设置一下哦！

cd ~

cat id_rsa.pub >>authorized_keys

2.7 处理防火墙

service iptables stop

& 说明

如果不关闭防火墙，让datanode通过namenode机的访问，请配置slave01,slave02等相关机器的iptables表，各台机器都要能互相访问

vi /etc/sysconfig/iptables

添加：

-I INPUT -s 192.168.2.18 -j ACCEPT

-I INPUT -s 192.168.2.38 -j ACCEPT

-I INPUT -s 192.168.2.87 -j ACCEPT

开启master01的8088和50070端口，方便WEB访问namenode和mapreduce

图1

图2

2.8 将hadoop-2.0.0-cdh4.2.0.zip上传到/opt，并解压缩

tar xzvf hadoop-2.0.0-cdh4.2.0.tar.gz

mv hadoop-2.0.0-cdh4.2.0 hadoop

cd hadoop/etc/hadoop/

2.9 编辑core-site.xml文件

vi core-site.xml

<name>fs.defaultFS</name>

<value>hdfs://master01</value>

</property>

<name>fs.trash.interval</name>

</property>

<name>fs.trash.checkpoint.interval</name>

</property>

</configuration>

2.10 编辑hdfs-site.xml文件

vi hdfs-site.xml

<name>dfs.replication</name>

</property>

<name>hadoop.tmp.dir</name>

<value>/opt/data/hadoop-${user.name}</value>

</property>

<name>dfs.namenode.http-address</name>

<value>master01:50070</value>

</property>

<name>dfs.secondary.http.address</name>

<value>master02:50090</value>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

</configuration>

2.11 编辑slaves文件

vi slaves

slave01

slave02

2.12 编辑mapred-site.xml文件

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

<value>master01:10020</value>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>master01:19888</value>

</property>

</configuration>

2.13 编辑yarn-site.xml文件

vi yarn-site.xml

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>master01:8031</value>

</property>

<name>yarn.resourcemanager.address</name>

<value>master01:8032</value>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>master01:8030</value>

</property>

<name>yarn.resourcemanager.admin.address</name>

<value>master01:8033</value>

</property>

<name>yarn.resourcemanager.webapp.address</name>

<value>master01:8088</value>

</property>

<description>Classpath for typical applications.</description>

<name>yarn.application.classpath</name>

<value>$HADOOP_CONF_DIR,$HADOOP_COMMON_HOME/share/hadoop/common/*,

$HADOOP_COMMON_HOME/share/hadoop/common/lib/*,

$HADOOP_HDFS_HOME/share/hadoop/hdfs/*,$HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*,

$YARN_HOME/share/hadoop/yarn/*,$YARN_HOME/share/hadoop/yarn/lib/*,

$YARN_HOME/share/hadoop/mapreduce/*,$YARN_HOME/share/hadoop/mapreduce/lib/*</value>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce.shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.nodemanager.local-dirs</name>

<value>/opt/data/yarn/local</value>

</property>

<name>yarn.nodemanager.log-dirs</name>

</property>

<description>Where to aggregate logs</description>

<name>yarn.nodemanager.remote-app-log-dir</name>

</property>

<name>yarn.app.mapreduce.am.staging-dir</name>

</property>

</configuration>

1.1 编辑.bashrc文件

cd ~

vi .bashrc

#export LANG=zh_CN.utf8

export JAVA_HOME=/usr/java/jdk1.7.0

export JRE_HOME=$JAVA_HOME/jre

export CLASSPATH=./:$JAVA_HOME/lib:$JRE_HOME/lib:$JRE_HOME/lib/tools.jar

export HADOOP_HOME=/opt/hadoop

export HIVE_HOME=/opt/hive

export HBASE_HOME=/opt/hbase

export HADOOP_MAPRED_HOME=${HADOOP_HOME}

export HADOOP_COMMON_HOME=${HADOOP_HOME}

export HADOOP_HDFS_HOME=${HADOOP_HOME}

export YARN_HOME=${HADOOP_HOME}

export HADOOP_YARN_HOME=${HADOOP_HOME}

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export HDFS_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin

source .bashrc

1.2 将master01机上的/opt/hadoop拷贝到其他机器上

rsync -vzrtopgu --progress hadoop slave01:/opt/

rsync -vzrtopgu --progress hadoop slave02:/opt/

或者

rsync -vzrtopgu --progress hadoop 192.168.2.38:/opt/

rsync -vzrtopgu --progress hadoop 192.168.2.163:/opt/

& rsync命令参数解释

-v, --verbose 详细模式输出

-z, --compress 对备份的文件在传输时进行压缩处理

-r, --recursive 对子目录以递归模式处理

-t, --times 保持文件时间信息

-o, --owner 保持文件属主信息

-p, --perms 保持文件权限

-g, --group 保持文件属组信息

-u, --update 仅仅进行更新，也就是跳过所有已经存在于DST，并且文件时间晚于要备份的文件。(不覆盖更新的文件)

1.3 第一次启动hadoop需要先格式化NameNode

/opt/hadoop/bin/hadoop namenode -format

& 说明：

该操作只做一次。当修改了配置文件时，需要重新格式化

1.4 在master01机上启动hdfs：

/opt/hadoop/sbin/start-dfs.sh

1.5 在master01机上启动mapreduce,historyserver

/opt/hadoop/sbin/start-yarn.sh

/opt/hadoop/sbin/mr-jobhistory-daemon.sh start historyserver

1.6 查看master01机的MapReduce

http://192.168.2.18:8088/cluster

1.7 查看slave01,slave02的节点

http://192.168.2.163:8042/node/node

1.8 检查各台机器的集群进程

[root@master01 ~]# jps

5389 NameNode

5980 Jps

5710 ResourceManager

7032 JobHistoryServer

[root@slave01 ~]# jps

3187 Jps

3124 SecondaryNameNode

[root@slave02~]# jps

3187 Jps

3124 DataNode

5711 NodeManager

1.9 关闭服务

/opt/hadoop/sbin/stop-all.sh

第2章 Zookeeper安装

2.1 准备安装包

zookeeper-3.4.5-cdh4.2.0.tar.gz

2.2 解压

tar xzvf zookeeper-3.4.5-cdh4.2.0.tar.gz

mv zookeeper-3.4.5-cdh4.2.0 zookeeper

2.3 修改zoo.cfg文件

cd conf/

cp zoo_sample.cfg zoo.cfg

vi zoo.cfg

# The number of milliseconds of each tick

tickTime=2000

# The number of ticks that the initial

# synchronization phase can take

initLimit=10

# The number of ticks that can pass between

# sending a request and getting an acknowledgement

syncLimit=5

# the directory where the snapshot is stored.

# do not use /tmp for storage, /tmp here is just

# example sakes.

dataDir=/opt/zookeeper/data

#dataLogDir=/opt/zookeeper/log

# the port at which the clients will connect

clientPort=2181

# Be sure to read the maintenance section of the

# administrator guide before turning on autopurge.

# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance

# The number of snapshots to retain in dataDir

#autopurge.snapRetainCount=3

# Purge task interval in hours

# Set to "0" to disable auto purge feature

#autopurge.purgeInterval=1

server.1=master01:2888:3888

server.2=master02:2888:3888

server.3=slave01:2888:3888

server.4=slave02:2888:3888

2.4 修改环境变量

vi ~/.bashrc

export ZOOKEEPER_HOME=/opt/zookeeper

export PATH=$PATH:$ZOOKEEPER_HOME/bin

2.5 创建data文件夹及修改myid文件

mkdir /opt/zookeeper/data

touch myid

vi myid

第一台机器写入数字1

第二台机器写入数字2

依此类推

2.6 将文件复制至其他机器

rsync -vzrtopgu --progress zookeeper master02:/opt/

rsync -vzrtopgu --progress zookeeper slave01:/opt/

rsync -vzrtopgu --progress zookeeper slave02:/opt/

2.7 启动

sh /opt/zookeeper/bin/zkServer.sh start

[root@master01 zookeeper]# jps

3459 JobHistoryServer

6259 Jps

2906 NameNode

3171 ResourceManager

6075 QuorumPeerMain

2.8 检查是否成功

/opt/zookeeper/bin/zkCli.sh -server master01:2181

或者

sh /opt/zookeeper/bin/zkServer.sh stop

2.9 停止服务

sh /opt/zookeeper/bin/zkServer.sh stop

2.10 参考文档

http://archive.cloudera.com/cdh4/cdh/4/zookeeper-3.4.5-cdh4.2.0/

第3章 Hive的安装

3.1 准备安装包

hive-0.10.0-cdh4.2.0 [43.2M]

mysql-connector-java-5.1.18.tar.gz [3.65M]

3.2 准备机器

slave03机器，安装hive+thrift+sqoop,专门作为数据分析用途。

3.3 访问mysql

和mysql整合前，请务必配置好各机器间能访问Mysql服务器机

GRANT select, insert, update, delete ON *.* TO 'hadoop'@'slave01' IDENTIFIED BY 'hadoop';

flush privileges;

show grants for 'hive'@'slave03';

revoke all on *.* from 'hadoop'@'slave01';

drop user 'hive'@'slave03';

& 说明

测试环境下，本人仍然用slave03机做mysql服务器。在实际生产环境中，建议用专门的机器做Mysql。

3.4 配置hive-site.xml文件，将meta信息保存在mysql里

cd /opt/hive

vi hive-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://slave03:3306/hive?createDatabaseIfNotExist=true&characterEncoding=UTF-8</value>

<description>JDBC connect string for a JDBC metastore</description>

</property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

<description>Driver class name for a JDBC metastore</description>

</property>

<name>javax.jdo.option.ConnectionUserName</name>

<value>hadoop</value>

<description>username to use against metastore database</description>

</property>

<name>javax.jdo.option.ConnectionPassword</name>

<value>hadoop</value>

<description>password to use against metastore database</description>

</property>

<name>mapred.job.tracker</name>

<value>master01:8031</value>

</property>

<name>mapreduce.framework.name</name>

</property>

<name>hive.metastore.warehouse.dir</name>

<value>/opt/data/warehouse-${user.name}</value>

<description>location of default database for the warehouse</description>

</property>

<name>hive.exec.scratchdir</name>

<description>Scratch space for Hive jobs</description>

</property>

<name>hive.querylog.location</name>

<value>/opt/data/querylog-${user.name}</value>

Location of Hive run time structured log file

</description>

</property>

<name>hive.support.concurrency</name>

<description>Enable Hive's Table Lock Manager Service</description>

<value>false</value>

</property>

<name>hive.hwi.listen.host</name>

<value>master01</value>

<description>This is the host address the Hive Web Interface will listen on</description>

</property>

<name>hive.hwi.listen.port</name>

<description>This is the port the Hive Web Interface will listen on</description>

</property>

<description>This is the WAR file with the jsp content for Hive Web Interface</description>

</property>

</configuration>

3.5 将mysql-connector-java-5.1.18.tar.gz解压

tar xzvf mysql-connector-java-5.1.18.tar.gz

mv mysql-connector-java-5.1.18-bin.jar /opt/hive/lib

3.6 Mysql的一些操作

create database hive;

alter database hive character set latin1;

& 注意：

如果不设置上述命令，则会出现如下：

Specified key was too long; max key length is 767 bytes

3.7 查看日志记录

tail /tmp/root/hive.log

3.8 Hive导入本地数据命令

1) CREATE TABLE mytest2(num INT, name STRING) COMMENT 'only a test' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE;

2) LOAD DATA LOCAL INPATH '/var/22.txt' INTO TABLE mytest2;

第4章 Hive+Thrift+PHP整合

4.1 准备安装包

Thrift.zip [71.7K] 下载URL：http://download.csdn.net/detail/jiedushi/3409880

PHP安装，略过

4.2 编辑代码

vi test.php

<?php

$GLOBALS['THRIFT_ROOT'] = '/home/wwwroot/Thrift/';

require_once $GLOBALS['THRIFT_ROOT'] . 'packages/hive_service/ThriftHive.php';

require_once $GLOBALS['THRIFT_ROOT'] . 'transport/TSocket.php';

require_once $GLOBALS['THRIFT_ROOT'] . 'protocol/TBinaryProtocol.php';

$transport = new TSocket('slave03', 10000);

$protocol = new TBinaryProtocol($transport);

$client = new ThriftHiveClient($protocol);

$transport->open();

#$client->execute('add jar /opt/hive/lib/hive-contrib-0.10.0-cdh4.2.0.jar ');

$client->execute("LOAD DATA LOCAL INPATH '/var/22.txt' INTO TABLE mytest2");

$client->execute("SELECT COUNT(1) FROM mytest2");

var_dump($client->fetchAll());

$transport->close();

& 说明：

/var/22.txt文件内容为：

1 jj

2 kk

与上一章2.5的操作同步

4.3 启动hiveserver

/opt/hive/bin/hive --service hiveserver >/dev/null 2>/dev/null &

4.4 查看默认开启的10000端口

netstat -lntp|grep 10000

4.5 测试

php test.php

4.6 出错提示及解决办法

Ø Warning: stream_set_timeout(): supplied argument is not a valid stream resource in /home/wwwroot/Thrift/transport/TSocket.php on line 213

修改php.ini中的disable_functions

disable_functions = passthru,exec,system,chroot,scandir,chgrp,chown,shell_exec,proc_get_status,ini_alter,ini_alter,ini_restore,dl,openlog,syslog,readlink,symlink,popepassthru

第5章 sqoop安装使用

5.1 准备安装包

sqoop-1.4.2-cdh4.2.0.tar.gz [6M]

5.2 前提工作

按第一章的介绍步骤配置好hadoop，环境变量HADOOP_HOME已经设置好。

5.3 安装

cd /opt/

tar xzvf sqoop-1.4.2-cdh4.2.0.tar

mv sqoop-1.4.2-cdh4.2.0 sqoop

5.4 放置mysql驱动包

将mysql-connector-java-5.1.18-bin.jar包放至/opt/sqoop/lib下

5.5 修改configure-sqoop文件

vi /opt/sqoop/bin/configure-sqoop

因为没安装hbase，请注释

#if [ ! -d "${HBASE_HOME}" ]; then

# echo "Warning: $HBASE_HOME does not exist! HBase imports will fail."

# echo 'Please set $HBASE_HOME to the root of your HBase installation.'

#fi

5.6 将路径加入PATH

vi ~/.bashrc

export PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$ANT_HOME/bin:/opt/sqoop/bin

5.7 使用测试

Ø 列出mysql数据库中的所有数据库命令

sqoop list-databases --connect jdbc:mysql://slave03:3306/ --username hadoop --password hadoop

Ø 列出表名：

sqoop list-tables -connect jdbc:mysql://slave03/ggg -username hadoop -password hadoop

Ø 将关系型数据的表结构复制到hive中

sqoop create-hive-table --connect jdbc:mysql://master01:3306/ggg --table hheccc_area --username hadoop --password hadoop --hive-table ggg_hheccc_area

Ø 从关系数据库导入文件到hive中

sqoop import -connect jdbc:mysql://slave03/ggg -username hadoop -password hadoop -table sp_log_fee -hive-import --hive-table hive_log_fee --split-by id -m 4

& 参照

一般导入：

import \
       --append \
       --connect $DS_BJ_HOTBACKUP_URL \
       --username $DS_BJ_HOTBACKUP_USER \
       --password $DS_BJ_HOTBACKUP_PWD \
       --table 'seven_book_sync' \
       --where "create_date >= '${par_31days}' and create_date < '${end_date}'" \
       --hive-import \
       --hive-drop-import-delims \
       --hive-table ${hive_table} \        //可以点分法识别schema.table
       --m 1

以时间作为增量条件是最好的办法

并行导入：

sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --target-dir $hdfsPath --m 12 --split-by CLIENTIP --table $oralceTableName --columns $columns --fields-terminated-by '\001' --where "data_desc='2011-02-26'"

增量导入：

sqoop import --connect jdbc:mysql://master01:3306/ggg --username hadoop --password hadoop --table hheccc_area --columns "id,name,reid,disorder" --direct --hive-import --hive-table hheccc_area --incremental append --check-column id --last-value 0

sqoop job --exec area_import

以上为网上找来的命令，经测试，不起作用。留着仅供参考。

Ø 将hive中的表数据导出到mysql中

sqoop export --connect jdbc:mysql://master01:3306/ggg --username hadoop --password hadoop --table mytest2 --export-dir /opt/data/warehouse-root/ggg_hheccc_area

& 备注

分区保存：/user/hive/warehouse/uv/dt=2011-08-03

5.8 出错提示及解决办法

Ø Encountered IOException running import job: org.apache.hadoop.fs.FileAlreadyExistsException: Output directory hdfs://master01/user/root/hheccc_area already exists

/opt/hadoop/bin/hadoop fs -rm -r /user/root/hheccc_area

5.9 参考

http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html

http://sqoop.apache.org/docs/1.4.2/SqoopUserGuide.html

已有 0 人发表留言，猛击->> 这里<<-参与讨论

ITeye推荐

—软件人才免语言低担保赴美带薪读研！—

手动安装Hadoop Cloudera CDH4.2版本

- - 开源软件 - ITeye博客

手动安装Hadoop Cloudera CDH4.2版本. 此文由本人调试整理通过，转载请注明出处，谢谢. 1.1 Hadoop是什么?4. 1.2 为什么选择CDH版本?4. 第2章安装hadoop环境6. 2.2 默认用户组root:root6. 2.4 安装和配置jdk环境6. 2.5 配置/etc/hosts6.

Cloudera Search: 轻松实现Hadoop全文检索

- - Hadoop中国

近期Cloudera Search的推出，对于曾经做信息检索和使用过Lucene/Solr的我来讲，虽然不是那种令人乍舌的新技术，但从应用层面来考虑，我相信，对于业界而言，毫无疑问是一个相当令人兴奋的消息. 想想看，有了集一整套解决方案在手的Cloudera Search在手，现在任何人都可以轻而易举地像使用谷歌百度那样对存储在Hadoop里面的数据进行全文检索了.

英特尔放弃发行 Hadoop 版本，转而支持 Cloudera

- - 开源中国社区最新新闻

据Marketwatch 报道，英特尔昨天作出了一个震惊整个大数据市场的决定——停止发行英特尔自己的Hadoop版本，转而支持Hadoop发行商Cloudera. 消息人士透露英特尔资本还将向Cloudera追加超过9000万美元投资并成为Cloudera最大的股东. Cloudera上周刚刚完成1.6亿美元融资，而本周二 Hortonworks也紧随其后完成了第四轮1亿美元融资.

Oracle大数据机和连接器产品支持与Hadoop和Cloudera Manager集成

- - InfoQ cn

Oracle大数据机和大数据连接器软件支持与Hadoop、Cloudera Manager以及Oracle NoSQL数据库的集成. 上月Oracle 宣布携手Cloudera进军大数据机和连接器软件领域. 大数据机融合了Cloudera公司的 Apache Hadoop（CDH）和 Cloudera Manager管理应用，以及一个开源统计性编程语言 R.

Cloudera Impala 初体验

- - CSDN博客推荐文章

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据. 已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性. 相比之下，Impala的最大特点也是最大卖点就是它的快速.

Cloudera impala简介及安装详解

- - CSDN博客云计算推荐文章

一、Impala简介 Cloudera Impala对你存储在Apache Hadoop在HDFS，HBase的数据提供直接查询互动的SQL. 除了像Hive使用相同的统一存储平台，Impala也使用相同的元数据，SQL语法（Hive SQL），ODBC驱动程序和用户界面（Hue Beeswax）.

离线安装Cloudera Manager 5和CDH5(最新版5.1.3) 完全教程 - StanZhai

- - 博客园_首页

关于CDH和Cloudera Manager. CDH (Cloudera's Distribution, including Apache Hadoop)，是Hadoop众多分支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建，并集成了很多补丁，可直接用于生产环境. Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件，对集群中主机、Hadoop、Hive、Spark等服务的安装配置管理做了极大简化.

Hadoop Streaming 编程

- - 学着站在巨人的肩膀上

Hadoop Streaming是Hadoop提供的一个编程工具，它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer，例如：. 采用shell脚本语言中的一些命令作为mapper和reducer（cat作为mapper，wc作为reducer）. 本文安排如下，第二节介绍Hadoop Streaming的原理，第三节介绍Hadoop Streaming的使用方法，第四节介绍Hadoop Streaming的程序编写方法，在这一节中，用C++、C、shell脚本和python实现了WordCount作业，第五节总结了常见的问题.

Hadoop使用（一）

- Pei - 博客园-首页原创精华区

Hadoop使用主/从（Master/Slave）架构，主要角色有NameNode，DataNode，secondary NameNode，JobTracker，TaskTracker组成. 其中NameNode，secondary NameNode，JobTracker运行在Master节点上，DataNode和TaskTracker运行在Slave节点上.

Hadoop MapReduce技巧

- - 简单文本

我在使用Hadoop编写MapReduce程序时，遇到了一些问题，通过在Google上查询资料，并结合自己对Hadoop的理解，逐一解决了这些问题. Hadoop对MapReduce中Key与Value的类型是有要求的，简单说来，这些类型必须支持Hadoop的序列化. 为了提高序列化的性能，Hadoop还为Java中常见的基本类型提供了相应地支持序列化的类型，如IntWritable，LongWritable，并为String类型提供了Text类型.

手动安装Hadoop Cloudera CDH4.2版本

手动安装Hadoop Cloudera CDH4.2版本

相关 [hadoop cloudera cdh4] 推荐：

手动安装Hadoop Cloudera CDH4.2版本

Cloudera Search: 轻松实现Hadoop全文检索

英特尔放弃发行 Hadoop 版本，转而支持 Cloudera

Oracle大数据机和连接器产品支持与Hadoop和Cloudera Manager集成

Cloudera Impala 初体验

Cloudera impala简介及安装详解

离线安装Cloudera Manager 5和CDH5(最新版5.1.3) 完全教程 - StanZhai

Hadoop Streaming 编程

Hadoop使用（一）

Hadoop MapReduce技巧

相关文章

订阅