关于hadoop的入门和进阶文章收录

标签: hadoop 文章 | 发表时间:2012-04-07 22:46 | 作者:
出处:http://www.iteye.com

1  Hadoop     http://hadoop.apache.org

 

 

 

 

2 网上比较权威和受欢迎的大部分是来自 IBM DW 的文章,尤其是那两个经典系列的文章,此外还有一些案例型和实践型的文章与指南,这里集中收录如下:

 

 

两篇云计算理论与概念的入门文章/教程:

 

 

云计算:基础

概念、优势、挑战和向云计算过渡需要考虑的事情

发布日期: 2012 年 2 月 13 日 (最初发布 2011 年 3 月 18 日) 

级别:初级 

选择了四星

 
 
 
 

 (14 个评分)

 

 

http://www.ibm.com/developerworks/cn/training/kp/cl-kp-cloudfundamentals/

 

 

 

 

 

云计算新手?

http://www.ibm.com/developerworks/cn/cloud/newto.html

 

 

 

关于 hadoop的:

 

 

用 Linux 和 Apache Hadoop 进行云计算

发布日期: 2009 年 11 月 19 日 
级别: 初级

http://www.ibm.com/developerworks/cn/aix/library/au-cloud_apache/

 

 

 

使用 Linux 和 Hadoop 进行分布式计算(简介)

http://www.ibm.com/developerworks/cn/linux/l-hadoop/

 

系列1:

 

    用 Hadoop 进行分布式并行编程, 第 1 部分

     http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html

 

    用 Hadoop 进行分布式并行编程, 第 2 部分

     http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.html

 

    用 Hadoop 进行分布式并行编程, 第 3 部分

     http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop3

 

 

系列2:

 

   用 Hadoop 进行分布式数据处理,第 1 部分: 入门

     http://www.ibm.com/developerworks/cn/linux/l-hadoop-1

 

    用 Hadoop 进行分布式数据处理,第 2 部分: 进阶

     http://www.ibm.com/developerworks/cn/linux/l-hadoop-2

 

    用 Hadoop 进行分布式数据处理,第 3 部分: 应用程序开发

     http://www.ibm.com/developerworks/cn/linux/l-hadoop-3

 

 

hadoop@yahoo

http://developer.yahoo.com/hadoop/ 

 

The hadoop distributed file system 

http://developer.yahoo.com/hadoop/tutorial/module2.html

 

 

CSDN Hadoop专题

http://subject.csdn.net/hadoop/

 

iteye hadoop 讨论组

http://hadoop.group.iteye.com/

 

开源中国 hadoop 频道

http://www.oschina.net/search?q=hadoop&scope=project

 

 

 

stackoverflow 上的hadoop问答

http://stackoverflow.com/search?q=hadoop

 

 

 

另外,看到其他网友推荐的文章:

 

Michael G. Noll

http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/

http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/

 

 

 

分布式文件系统 
http://www.cnblogs.com/duguguiyu/archive/2009/02/22/1396034.html 

分布式计算(Map/Reduce) 
http://www.cnblogs.com/duguguiyu/archive/2009/02/28/1400278.html 

 

 

 

hadoop安装

http://www.cnblogs.com/wayne1017/archive/2007/03/20/678724.html 

 

http://blog.sina.com.cn/s/blog_62186b4601011c6a.html

 

http://blog.chinaunix.net/uid-128922-id-289987.html

 

 

hadoop教程

http://naojuan.com/ 

 

hadoop笔记

http://www.cnblogs.com/Dreama/category/307220.html

 

 

 

ps:

我最早是在09年底了解和安装过hadoop,当时正好有庞大的cluster资源可用,可惜只是局限于学习,没有在正式项目中使用。  如今随着nosql的发展,以及ssd硬件发展,一种使用ssd硬盘+大内存+nosql+hadoop平台的基因组序列分析套件成为可能性! 希望有人已经开发出了产品吧。 

 



已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [hadoop 文章] 推荐:

文章: Hadoop虚拟研讨会

- - InfoQ cn
现今,大数据和Hadoop在计算机工业里正如暴风骤雨般开展着. 从CEO、CIO到开发人员,每个人对其用法都有自己的看法. 12306插件引发GitHub故障,GitHub资深运维工程师确认参加QCon北京2013,现身说法. Erlang的互联网公司实践分享——淘宝褚霸确认参加QCon北京并分享Erlang在淘宝的应用经验.

关于hadoop的入门和进阶文章收录

- - ITeye博客
2 网上比较权威和受欢迎的大部分是来自 IBM DW 的文章,尤其是那两个经典系列的文章,此外还有一些案例型和实践型的文章与指南,这里集中收录如下:. 两篇云计算理论与概念的入门文章/教程:. 概念、优势、挑战和向云计算过渡需要考虑的事情. 发布日期: 2012 年 2 月 13 日 (最初发布 2011 年 3 月 18 日) .

文章: Hadoop in 360——专访360系统部总监唐会军

- - InfoQ cn
在前不久的Hadoop in China 2011大会上,360系统部总监 唐会军接受了InfoQ的专访,谈到360公司内部对Hadoop的使用,并对Hadoop项目和HBase面临的挑战提出了自己的看法. QClub(西安站)——前端崛起(2月25日 免费报名中. Inedo合作伙伴Alex Papadimoulis谈代码之丑之美.

文章: Hadoop MapReduce开发最佳实践(上篇)

- - InfoQ cn
本文是Hadoop最佳实践系列第二篇,上一篇为《 Hadoop管理员的十个最佳实践》. 百度技术沙龙第三十四期:机器学习之多媒体方向的思考(2013年1月12日 周六). 百度技术沙龙特约观察员火热招募中,2013,因为有你更精彩. GitHub运维专家Jesse Newland QCon分享Github ChatOps机器人与GitHub架构演进.

文章: Hadoop和元数据(解决阻抗失配问题)

- - InfoQ cn
在组织如何处理数据方面,Apache Hadoop展开了一场史无前例的革命——通过自由可扩展的Hadoop,可以在比以往更短的时间内,通过新应用创造新价值,并从大数据中提取想要的数据. 这次革命企图使企业建立以Hadoop为中心的数据处理模式,但是同时也提出一个挑战:我们如何在Hadoop的自由下进行协作呢.

文章: Hadoop管理员的十个最佳实践

- - InfoQ cn
接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当. 白皮书下载:利用您的私有或混合云加速业务成果.

Hadoop Streaming 编程

- - 学着站在巨人的肩膀上
Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:. 采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer). 本文安排如下,第二节介绍Hadoop Streaming的原理,第三节介绍Hadoop Streaming的使用方法,第四节介绍Hadoop Streaming的程序编写方法,在这一节中,用C++、C、shell脚本 和python实现了WordCount作业,第五节总结了常见的问题.

Hadoop使用(一)

- Pei - 博客园-首页原创精华区
Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker组成. 其中NameNode,secondary NameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上.

Hadoop MapReduce技巧

- - 简单文本
我在使用Hadoop编写MapReduce程序时,遇到了一些问题,通过在Google上查询资料,并结合自己对Hadoop的理解,逐一解决了这些问题. Hadoop对MapReduce中Key与Value的类型是有要求的,简单说来,这些类型必须支持Hadoop的序列化. 为了提高序列化的性能,Hadoop还为Java中常见的基本类型提供了相应地支持序列化的类型,如IntWritable,LongWritable,并为String类型提供了Text类型.

Hadoop TaskScheduler浅析

- - kouu&#39;s home
TaskScheduler,顾名思义,就是MapReduce中的任务调度器. 在MapReduce中,JobTracker接收JobClient提交的Job,将它们按InputFormat的划分以及其他相关配置,生成若干个Map和Reduce任务. 然后,当一个TaskTracker通过心跳告知JobTracker自己还有空闲的任务Slot时,JobTracker就会向其分派任务.