Hadoop书籍和网络资源介绍

标签: 第一代MapReduce(MRv1) Hadoop 书籍,网络资源,博客 | 发表时间:2013-01-27 18:54 | 作者:Dong
出处:http://dongxicheng.org
作者: Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明
网址: http://dongxicheng.org/mapreduce/hadoop-books/

本文介绍Hadoop Core(MapReduce和HDFS)相关的书籍和网络资源。

【Hadoop书籍】

这些书均可以从 http://ishare.iask.sina.com.cn/上下载电子版,有些书籍是作者主动开源的,另外一些是不劳而获者上传的,可用于学习,但不要盗印。

(1) Hadoop: The Definitive Guide

http://book.douban.com/subject/3220004/

Hadoop权威指南,涉及知识面非常全面的一本书,介绍了Hadoop生态系统中的各个软件,包括HDFS,MapReduce,Hive,Hbase等。截至2013年1月,该书已经出了第三版,在该版本中,添加了少量的YARN相关内容。

(2)Hadoop Operations

http://book.douban.com/subject/17458570/

这是一本Hadoop运维方面的书籍,由Cloudera员工操手,介绍了Hadoop集群从硬件选型到软件配置等方面需考虑的因素,这本书不仅介绍了Hadoop 1.0的安装和部署方法,也介绍而来最新的YARN和HDFS Federation的部署方法。个人认为,这本书是运维人员必看的书籍。

(3) Hadoop in Action

http://book.douban.com/subject/4049942/

该书属于MapReduce应用程序开发类书籍,它介绍了几种MapReduce应用程序开发方法,包括Java、Hadoop Streaming和Hadoop pipes,此外,还介绍了面向SQL和脚本语言的Hive和Pig。

(4)Pro Hadoop

http://book.douban.com/subject/3529886/

该书与Hadoop In Action类似,但涉及内容更全面,更详细,它不仅介绍了MapReduce应用程序开发方法,还给出了各种应用实例,详细介绍了各种调试方法,HDFS使用和运维等知识等。

(5)Hadoop in Practice

http://book.douban.com/subject/10748575/

该书籍是一线工程师编写的,出发点与以上几本书不同,它重在解决更加实际的问题,比如如何将数据移入或者移出HDFS,如果利用MapReduce思想解决各种问题等。

(6)MapReduce Design Patterns

http://book.douban.com/subject/11229683/

MapReduce设计模式,将MapReduce运算符抽象成设计模式,以便能够重用。

如果你想更准确地学习Hadoop知识,请一定要阅读英文原著,国内翻译的Hadoop图书是一塌糊涂。另外,国内也有人写了一些Hadoop书籍,比如《实战Hadoop:开启通向云计算的捷径》,《高可用性的HDFS:Hadoop分布式文件系统深度实践(配光盘)》,《Hadoop实战》等,这些书均可以在京东、当当、亚马逊等网站上买到,有兴趣的读者可以阅读一下。

【Hadoop网络资源】

(1)Cloudera Blog: http://blog.cloudera.com/

(2)Hortonworks Blog: http://hortonworks.com/blog/

(3)Apache Hadoop: http://hadoop.apache.org/

(4)Hadoop jira: https://issues.apache.org/jira/browse/YARN

https://issues.apache.org/jira/browse/HADOOP

https://issues.apache.org/jira/browse/HDFS

https://issues.apache.org/jira/browse/MAPREDUCE

(5) Hadoop wiki: http://wiki.apache.org/hadoop/

原创文章,转载请注明: 转载自 董的博客

本文链接地址: http://dongxicheng.org/mapreduce/hadoop-books/

作者: Dong,作者介绍: http://dongxicheng.org/about/


Copyright © 2012
This feed is for personal, non-commercial use only.
The use of this feed on other websites breaches copyright. If this content is not in your news reader, it makes the page you are viewing an infringement of the copyright. (Digital Fingerprint:
)

相关 [hadoop 书籍 网络] 推荐:

Hadoop书籍和网络资源介绍

- - 董的博客
Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明. 网址: http://dongxicheng.org/mapreduce/hadoop-books/. 本文介绍Hadoop Core(MapReduce和HDFS)相关的书籍和网络资源.

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

- - zzm
网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项. 由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索. 搜 索引擎架构在ElasticSearch之上,是一个典型的分布式在线实时交互查询架构,无单点故障,高伸缩、高可用.

X-RIME: 基于Hadoop的开源大规模社交网络分析工具

- - 并行实验室 | Parallel Labs
文 / 陈冠诚,史巨伟,杨博(IBM中国研究院),杨寅(人民搜索). 随着互联网的快速发展,涌现出了一大批以Facebook,Twitter,人人,微博等为代表的新型社交网站. 这些网站用户数量的迅速增长使得海量的用户数据不断被产生出来,而如何有效地对这些海量的用户数据进行社交网络分析(Social Network Analysis)正成为一个越来越热门的问题.

Hadoop Streaming 编程

- - 学着站在巨人的肩膀上
Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:. 采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer). 本文安排如下,第二节介绍Hadoop Streaming的原理,第三节介绍Hadoop Streaming的使用方法,第四节介绍Hadoop Streaming的程序编写方法,在这一节中,用C++、C、shell脚本 和python实现了WordCount作业,第五节总结了常见的问题.

Hadoop使用(一)

- Pei - 博客园-首页原创精华区
Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker组成. 其中NameNode,secondary NameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上.

Hadoop MapReduce技巧

- - 简单文本
我在使用Hadoop编写MapReduce程序时,遇到了一些问题,通过在Google上查询资料,并结合自己对Hadoop的理解,逐一解决了这些问题. Hadoop对MapReduce中Key与Value的类型是有要求的,简单说来,这些类型必须支持Hadoop的序列化. 为了提高序列化的性能,Hadoop还为Java中常见的基本类型提供了相应地支持序列化的类型,如IntWritable,LongWritable,并为String类型提供了Text类型.

Hadoop TaskScheduler浅析

- - kouu's home
TaskScheduler,顾名思义,就是MapReduce中的任务调度器. 在MapReduce中,JobTracker接收JobClient提交的Job,将它们按InputFormat的划分以及其他相关配置,生成若干个Map和Reduce任务. 然后,当一个TaskTracker通过心跳告知JobTracker自己还有空闲的任务Slot时,JobTracker就会向其分派任务.

HADOOP安装

- - OracleDBA Blog---三少个人自留地
最近有时间看看hadoop的一些东西,而且在测试的环境上做了一些搭建的工作. 首先,安装前需要做一些准备工作. 使用一台pcserver作为测试服务器,同时使用Oracle VM VirtualBox来作为虚拟机的服务器. 新建了三个虚拟机以后,安装linux,我安装的linux的版本是redhat linux 5.4 x64版本.

Hadoop Corona介绍

- - 董的博客
Dong | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明. 网址: http://dongxicheng.org/hadoop-corona/hadoop-corona/. Hadoop Corona是facebook开源的下一代MapReduce框架. 其基本设计动机和Apache的YARN一致,在此不再重复,读者可参考我的这篇文章 “下一代Apache Hadoop MapReduce框架的架构”.

Hadoop RPC机制

- - 企业架构 - ITeye博客
RPC(Remote Procedure Call Protocol)远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议. Hadoop底层的交互都是通过 rpc进行的. 例如:datanode和namenode 、tasktracker和jobtracker、secondary namenode和namenode之间的通信都是通过rpc实现的.