Hadoop 高级程序设计（三）---自定义Partition和Combiner

标签： hadoop 程序设计 定义 | 发表时间：2014-09-25 23:05 | 作者：u011561690

出处：http://blog.csdn.net

Hadoop提供了缺省的Partition来完成map的输出向reduce分发处理。有时也需要自定义partition来将相同key值的数据分发到同一个reduce处理，为了减少map过程输出的中间结果键值对的数量，降低网络数据通信开销，用户也可以自定制combiner过程。

自定制Partition过程：

在mapreduce中，partition用于决定Map节点输出将被分到哪个Reduce节点，MapReduce提供的缺省Partition是HashPartition,他根据每条数据的主键值进行hash操作，获得一个hash码，然后对当前的分区数量进行取模计算，以此决定分发到哪个reduce节点。用户自定制的Partition，重载了getPartition()方法，对于 上篇的倒排索引复合键，将<itr.nextToken()+":"+split.getPath().toString().substring(splitIndex),"1">拆开.代码：

public class NewPartition extends HashPartitioner<Text,Text>{
			String keyinfo;
			public int getPartition(Text key,Text value,int numReducerTasks){
				keyinfo = key.toString().split(":")[0];
				return super.getPartition(new Text(keyinfo), value, numReducerTasks);
			}
		}

自定制的partition使用：

job.setPartitionClass(NewPartition.class);
而用户自定制的combiner，借鉴上篇的倒排索引的部分代码：

public static class combiner extends Reducer<Text,Text,Text,Text>{
		private Text info = new Text();	//为了拆分 key值 准备存储新的value值
		public void reduce(Text key,Iterable<Text>values,Context context) throws IOException, InterruptedException{
			int sum = 0;
			for(Text val:values){
				sum += Integer.parseInt(val.toString());
			}
			int splitIndex = key.toString().indexOf(":");
			info.set(key.toString().substring(splitIndex+1)+":"+sum);	//新的value值
			key.set(key.toString().substring(0, splitIndex));
			context.write(key, info);
		}
	}

自定制的combiner用：

job.setCombinerClass(combiner.class);

作者：u011561690 发表于2014-9-25 15:05:11 原文链接

阅读：69 评论：0 查看评论

相关 [hadoop 程序设计定义] 推荐：

Hadoop 高级程序设计（三）---自定义Partition和Combiner

- - CSDN博客云计算推荐文章

Hadoop提供了缺省的Partition来完成map的输出向reduce分发处理. 有时也需要自定义partition来将相同key值的数据分发到同一个reduce处理，为了减少map过程输出的中间结果键值对的数量，降低网络数据通信开销，用户也可以自定制combiner过程. 自定制Partition过程：.

Hadoop Streaming 编程

- - 学着站在巨人的肩膀上

Hadoop Streaming是Hadoop提供的一个编程工具，它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer，例如：. 采用shell脚本语言中的一些命令作为mapper和reducer（cat作为mapper，wc作为reducer）. 本文安排如下，第二节介绍Hadoop Streaming的原理，第三节介绍Hadoop Streaming的使用方法，第四节介绍Hadoop Streaming的程序编写方法，在这一节中，用C++、C、shell脚本和python实现了WordCount作业，第五节总结了常见的问题.

Hadoop使用（一）

- Pei - 博客园-首页原创精华区

Hadoop使用主/从（Master/Slave）架构，主要角色有NameNode，DataNode，secondary NameNode，JobTracker，TaskTracker组成. 其中NameNode，secondary NameNode，JobTracker运行在Master节点上，DataNode和TaskTracker运行在Slave节点上.

Hadoop MapReduce技巧

- - 简单文本

我在使用Hadoop编写MapReduce程序时，遇到了一些问题，通过在Google上查询资料，并结合自己对Hadoop的理解，逐一解决了这些问题. Hadoop对MapReduce中Key与Value的类型是有要求的，简单说来，这些类型必须支持Hadoop的序列化. 为了提高序列化的性能，Hadoop还为Java中常见的基本类型提供了相应地支持序列化的类型，如IntWritable，LongWritable，并为String类型提供了Text类型.

Hadoop TaskScheduler浅析

- - kouu's home

TaskScheduler，顾名思义，就是MapReduce中的任务调度器. 在MapReduce中，JobTracker接收JobClient提交的Job，将它们按InputFormat的划分以及其他相关配置，生成若干个Map和Reduce任务. 然后，当一个TaskTracker通过心跳告知JobTracker自己还有空闲的任务Slot时，JobTracker就会向其分派任务.

HADOOP安装

- - OracleDBA Blog---三少个人自留地

最近有时间看看hadoop的一些东西，而且在测试的环境上做了一些搭建的工作. 首先，安装前需要做一些准备工作. 使用一台pcserver作为测试服务器，同时使用Oracle VM VirtualBox来作为虚拟机的服务器. 新建了三个虚拟机以后，安装linux，我安装的linux的版本是redhat linux 5.4 x64版本.

Hadoop Corona介绍

- - 董的博客

Dong | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明. 网址: http://dongxicheng.org/hadoop-corona/hadoop-corona/. Hadoop Corona是facebook开源的下一代MapReduce框架. 其基本设计动机和Apache的YARN一致，在此不再重复，读者可参考我的这篇文章 “下一代Apache Hadoop MapReduce框架的架构”.

Hadoop RPC机制

- - 企业架构 - ITeye博客

RPC(Remote Procedure Call Protocol)远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议. Hadoop底层的交互都是通过 rpc进行的. 例如：datanode和namenode 、tasktracker和jobtracker、secondary namenode和namenode之间的通信都是通过rpc实现的.

Hadoop Rumen介绍

- - 董的博客

Dong | 新浪微博：西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明. 网址: http://dongxicheng.org/mapreduce/hadoop-rumen-introduction/. 什么是Hadoop Rumen?. Hadoop Rumen是为Hadoop MapReduce设计的日志解析和分析工具，它能够将JobHistory 日志解析成有意义的数据并格式化存储.

Hadoop contrib介绍

- - 董的博客

Dong | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明. 网址: http://dongxicheng.org/mapreduce/hadoop-contrib/. Hadoop Contrib是Hadoop代码中第三方公司贡献的工具包，一般作为Hadoop kernel的扩展功能，它包含多个非常有用的扩展包，本文以Hadoop 1.0为例对Hadoop Contrib中的各个工具包进行介绍.