MapReduce编程实战之“高级特性”

MapReduce编程模型

- - CSDN博客云计算推荐文章

MapReduce是一个Google发明的编程模型，也是一个处理和生成超大规模数据集的算法模型的相关实现. 用户首先创建一个Map函数处理一个基于对的数据集合，输出的中间结果基于对的数据集合，然后再创建一个Reduce函数用来合并所有的具有相同中间Key值的中间Value值.

Hadoop MapReduce高级编程

- - 互联网 - ITeye博客

•combine函数把一个map函数产生的对（多个key, value）合并成一个新的. 将新的作为输入到reduce函数中，其格式与reduce函数相同. •这样可以有效的较少中间结果，减少网络传输负荷. •什么情况下可以使用Combiner.

MapReduce编程实战之“高级特性”

- - CSDN博客云计算推荐文章

本篇介绍MapReduce的一些高级特性，如计数器、数据集的排序和连接. 计数器是一种收集作业统计信息的有效手段，排序是MapReduce的核心技术，MapReduce也能够执行大型数据集间的“”连接（join）操作. 计数器是一种收集作业统计信息的有效手段，用于质量控制或应用级统计. 计数器还可用于辅助诊断系统故障.

Hadoop MapReduce编程入门案例

- - CSDN博客云计算推荐文章

Hadoop入门例程简析中. (下面的程序下载地址： http://download.csdn.net/detail/zpcandzhj/7810829). (1)Hadoop新旧API的区别. 新的API倾向于使用虚类(抽象类)，而不是接口，因为这更容易扩展. 例如，可以无需修改类的实现而在虚类中添加一个方法(即用默认的实现).

MapReuce 编程总结-多MapReduce执行

- - CSDN博客云计算推荐文章

学习hadoop，必不可少的就是写MapReduce程序，当然，对于简单的分析程序，我们只需一个MapReduce就能搞定，这里就不提单MapReuce的情况了，网上例子很多，大家可以百度Google一下. 对于比较复杂的分析程序，我们可能需要多个Job或者多个Map或者Reduce进行分析计算. 多Job或者多MapReduce的编程形式有以下几种：.

MapReduce 编程之倒排索引

- - CSDN博客云计算推荐文章

本文调试环境： ubuntu 10.04 , hadoop-1.0.2. hadoop装的是伪分布模式，就是只有一个节点，集namenode, datanode, jobtracker, tasktracker...于一体. 本文实现了简单的倒排索引，单词，文档路径，词频，重要的解释都会在代码注视中.

文章： Apache Crunch：用于简化MapReduce编程的Java库

- - InfoQ cn

Apache Crunch（孵化器项目）是基于Google的 FlumeJava库编写的Java库，用于创建MapReduce流水线. 与其他用来创建MapReduce作业的高层工具（如Apache Hive、Apache Pig和Cascading等）类似，Crunch提供了用于实现如连接数据、执行聚合和排序记录等常见任务的模式库.

Mapreduce小结

- MAGI-CASPER/Peter Pan - 博客园-唯有前进值得敬仰

读完mapreduce论文小结一下. 1.MapReduce是一个编程模型，封装了并行计算、容错、数据分布、负载均衡等细节问题. 输入是一个key-value对的集合，中间输出也是key-value对的集合，用户使用两个函数：Map和Reduce. Map函数接受一个输入的key-value对，然后产生一个中间key-value 对的集合.

我在使用Hadoop编写MapReduce程序时，遇到了一些问题，通过在Google上查询资料，并结合自己对Hadoop的理解，逐一解决了这些问题. Hadoop对MapReduce中Key与Value的类型是有要求的，简单说来，这些类型必须支持Hadoop的序列化. 为了提高序列化的性能，Hadoop还为Java中常见的基本类型提供了相应地支持序列化的类型，如IntWritable，LongWritable，并为String类型提供了Text类型.

MapReduce原理

- - C++博客-牵着老婆满街逛

MapReduce 是由Google公司的Jeffrey Dean 和 Sanjay Ghemawat 开发的一个针对大规模群组中的海量数据处理的分布式编程模型. MapReduce实现了两个功能. Map把一个函数应用于集合中的所有成员，然后返回一个基于这个处理的结果集. 而Reduce是把从两个或更多个Map中，通过多个线程，进程或者独立系统并行执行处理的结果集进行分类和归纳.

MapReduce编程实战之“高级特性”

计数器

示例一：气温缺失及不规则数据计数器

示例二：统计气温信息缺失记录所占比例

排序

实例一、数据准备：将天气数据转成顺序文件格式

连接

本章的代码用到的基础工具类

JobBuilder

NcdcRecordParser

相关 [mapreduce 编程] 推荐：

MapReduce编程模型

Hadoop MapReduce高级编程

MapReduce编程实战之“高级特性”

Hadoop MapReduce编程入门案例

MapReuce 编程总结-多MapReduce执行

MapReduce 编程之倒排索引

文章： Apache Crunch：用于简化MapReduce编程的Java库

Mapreduce小结

Hadoop MapReduce技巧

MapReduce原理

相关文章

订阅