Hadoop的Secondary Sorting

- - 四火的唠叨

这几天项目中使用Hadoop遇到一个问题，对于这样key-value的数据集合：id-biz object，对id进行partition（比如根据某特定的hash算法P），分为a份；使用数量为b的reducer，在reducer里面要使用第三方组件进行批量上传；上传成文件，文件数量为c，但是有两个要求：.

浅析Hadoop Secondary NameNode，CheckPoint Node，Backup Node

- - CSDN博客云计算推荐文章

Hadoop SecondaryNameNode并不是Hadoop 第二个NameNode，它不提供NameNode服务，而仅仅是NameNode的一个工具. 这个工具帮助NameNode管理Metadata数据. NameNode的HDFS文件信息（即Metadata）记录在内存中，client的文件写操作直接修改内存中的Metadata，同时也会记录到硬盘的Edits文件，这是一个Log文件.

Hadoop二次排序关键点和出现时机（也叫辅助排序、Secondary Sort）

- - The Big Data Way，平凡但不乏味

Hadoop二次排序在面试的时候出现频率还是比较高的. 今天花了点时间通过源码深入学习了一下. 后面内容以Hadoop自带实例——SecondarySort讲解. 它的作用是决定数据分区，说白了就是决定map输出key-value由哪个reduce处理，每个map task输出的key-value都会执行Partitioner的getPartition()方法，用于返回当前key-value由哪个reduce处理.

华为HBase二级索引（Secondary Index）细节分析

- - 数据库 - ITeye博客

华为在HBTC 2012上由其高级技术经理Anoop Sam John透露了其二级索引方案，这在业界引起极大的反响，甚至有人认为，如果华为早点公布这个方案，hbase的某些问题早就解决了. 其核心思想是保证索引表和主表在同一个region server上. 目前该方案华为已经开源，详见： https://github.com/Huawei-Hadoop/hindex.

Phoenix二级索引(Secondary Indexing)的使用 - MOBIN - 博客园

- -

HBase只提供了一个基于字典排序的主键索引，在查询中你只能通过行键查询或扫描全表来获取数据，使用Phoenix提供的二级索引，可以避免在查询数据时全表扫描，提高查过性能，提升查询效率. 数据格式：(数据来自搜狗实验室). 三节点集群（一主两从，hadoop和HBase属同一集群）. Covered Indexes(覆盖索引).

Hadoop Streaming 编程

- - 学着站在巨人的肩膀上

Hadoop Streaming是Hadoop提供的一个编程工具，它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer，例如：. 采用shell脚本语言中的一些命令作为mapper和reducer（cat作为mapper，wc作为reducer）. 本文安排如下，第二节介绍Hadoop Streaming的原理，第三节介绍Hadoop Streaming的使用方法，第四节介绍Hadoop Streaming的程序编写方法，在这一节中，用C++、C、shell脚本和python实现了WordCount作业，第五节总结了常见的问题.

Hadoop的Secondary Sorting

相关 [hadoop secondary sorting] 推荐：