王家林“云计算分布式大数据Hadoop实战高手之路---从零开始”的第一讲Hadoop图文训练课程:10分钟理解云计算分布式大数据处理框架Hadoop

标签: 云计算 分布 大数据 | 发表时间:2013-06-11 12:27 | 作者:javaniceyou
出处:http://blog.csdn.net

                                                                                                                                                     

                                                                                                                                                                                           王家林的Hadoop官方博客

家林会带您在10分钟内理解云计算分布式大数据处理框架Hadoop并开始动手实践,倒计时开始……

更多Hadoop交流可以联系家林:

新浪微博:http://weibo.com/ilovepains

QQ:1740415547

QQ群:312494188

Weixin:wangjialinandroid

官方博客: http://www.cnblogs.com/guoshiandroid/

 

第1分钟:

     Hadoop要解决的问题是什么?

     答:Hadoop核心要解决长期IT界乃至人类社会的两大主题:

  1, 海量数据的存储:传统的存储方式昂贵而且日益难以满足核裂变级别数据的增长,例如纽约证券交易所每天要产生T级别的数据量,Facebook要每天要服务过亿的用户(其中图片等数据`量是惊人的),如何使用廉价的设备支持无线增长的数据的安全高效的存储,Hadoop提出了解决方案,即HDFS.

  2, 海量数据的分析:如何有效而快速的从海量数据中提取出有价值的信息,Hadoop给出了解决方案,即MapReduce.

HDFS和MapReduce是Hadoop整个项目的基础和核心,Hadoop庞大的家族中的其它子项目都是基于HDFS和MapReduce,所以掌握HDFS和MapReduce也就掌握了Hadoop的核心。

第2分钟:

     Hadoop的来源和发展历史是什么?

     答:始于2002年Apache搜索引擎项目Nutch,2004年Nutch的开发者基于Google发表的著名的GFS论文开发出了开源版本的GFS即NDFS,2005年基于Google发表的著名的MapReduce论文把MapReduce引入NDFS,2006年改名为Hadoop,NDFS的创始人加入Yahoo,同时Yahoo成立专门的小组发展Hadoop。

     可以看出,在Hadoop的发展过程中,除了其创始人外,Google和Yahoo居功至伟。

第3分钟:

     Hadoop到底是什么?

      答:Hadoop是基于廉价设备利用集群的威力对海量数据进行安全存储和高效计算的分布式存储和分析框架,Hadoop本身是一个庞大的项目家族,其核心家族或者底层是HDFS和MapReduce,HDFS和MapReduce分别用来实现对海量数据的存储和分析,其它的项目,例如Hive、HBase等都是基于HDFS和MapReduce,是为了解决特定类型的大数据处理问题而提出的子项目,使用Hive、HBase等子项目可以在更高的抽象的基础上更简单的编写分布式大数据处理程序。Hadoop的其它子项目还包括 Common, Avro, Pig, ZooKeeper, Sqoop, Oozie 等,随着时间的推移一些新的子项目会被加入进来,一些关注度不高的项目会被移除Hadoop家族,所以Hadoop是一个充满活力的系统。

第4分钟:

     什么问题场景下适合使用HDFS?什么场景下不适合采用HDFS?

     答:

适合使用Hadoop的场景:非常大的文件,包括单个文件非常大(例如超过100G大小的文件)和文件总大小非常大(例如达到P级别),即支持海量的数据;“write-once,read-many-times”的Streaming的文件访问方式;普通的硬件系统支持大数据的处理;

不适用Hadoop的场景:低延迟的数据访问;有很多细小文件的系统;要多次写入和修改的文件系统;

 

第5分钟:

     如何解读HDFS架构图?

     答:架构图如下:


 HDFS架构图的解读:

 

  1,HDFS会把一个大文件分成很多小些的文件,把这些小文件存放在不同的节点上;

 

  2,这些数据存放的节点叫做DataNode,DataNade中存放HDFS中定义的Block,即数据块,每块的大小是64M;

 

  3,HDFS把大文件分成的多个小文件不仅存放在不同的节点上,而且同一个文件块在不同的节点上有多个副本;

 

  4,记录这些数据和数据划分以及存储信息的节点叫做NameNode,NameNode是关键性的配置文件,而且是单一节点存在的,在2.x开始使用了HA策略,即HDFS支持NameNode的active-standy模式了;

 

  5,客户端请求Hadoop中的数据时先要访问NameNode,从NameNode中获取DataNode中数据存储的信息后,才进行具体数据的访问;

 

第6分钟:

 

     MapReduce到底是如何工作的?

 

      答:家林举个例子你就明白了:求20个数据中的最大数,一般的编程方式把第一个数据开始往后面一个个的比较,总是把更大的数据记录下来,这样顺序比较下去,最后就得到了最大的数据;但是MapReduce的做法是把这20个数据分成4组,每组5个数据,每组采用Map函数求出最大值,然后后每组把求得的各自最大值交给Reduce,由Reduce得出最后的最大值;

 

     简言之:MapReduce的工作方式就是大事化小,并行工作,各个击破。

 

 

 

第7分钟:

 

      为什么要学习Hadoop?

 

     答:Hadoop是云计算的具体实践技术,是处理大数据的开源框架,而大数据处理是IT界越来越热的主题,通过Hadoop开源代码的学习也是工程师提升自己功力的一个绝佳途径。

 

第8分钟:

 

     如何开始学习Hadoop?

 

     答:先搭建好Hadoop的单击环境、伪分布式环境和分布式环境。

 

第9分钟:

 

      如何没有任何障碍的成为Hadoop高手?

 

  答:学习免费发布王家林的云计算分布式大数据Hadoop实战高手之路(共3本书):

 

  1,王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”带领您无痛入门Hadoop并能够处理Hadoop工程师的日常编程工作,进入云计算大数据的美好世界。

 

  2,王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手崛起”通过数个案例实战和Hadoop高级主题的动手操作带领您直达Hadoop高手境界。

 

  3,王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手之巅”通过当今主流的Hadoop商业使用方法和最成功的Hadoop大型案例让您直达高手之巅,从此一览众山小。

 

 

 

第10分钟:

 

      进入家林的Hadoop教程,开始搭建Hadoop开发环境!

 

    


作者:javaniceyou 发表于2013-6-11 12:27:32 原文链接
阅读:119 评论:0 查看评论

相关 [云计算 分布 大数据] 推荐:

王家林“云计算分布式大数据Hadoop实战高手之路---从零开始”的第一讲Hadoop图文训练课程:10分钟理解云计算分布式大数据处理框架Hadoop

- - CSDN博客云计算推荐文章
                                                                                                                                                     .

马云,为什么将云计算和大数据作为未来战略

- - 人人都是产品经理
前几天马云的一封未来战略信引起了笔者的注意,马云在信中提到云端将是移动互联网的关键,阿里未来10年的目标是建立DT数据时代中国商业发展的基础设施. 前些天还一直在推动阿里社交APP的马云,为什么会在这个节点突然提出云计算和大数据战略. 这显然是有预谋的,也许就是为了和阿里未来的战略目标相呼应,前两天阿里挤走了IBM,拿下了国内最大的IT服务商东软并签署了战略协议,而东软将逐渐把传统IT服务迁移到阿里云的云计算平台.

马化腾:云计算、AI和大数据,是腾讯愿意大力投入的三点

- - 钛媒体:网罗天下创新事
9月8日,腾讯董事会主席兼首席执行官马化腾在清华大学洞见论坛上发表演讲,谈及科技和商业的融合时表示,随着数字经济的发展,科技越来越融入到各行各业,在数字化和智能化的大浪潮里面,科技是我们所有产业界都必须要去关注的. 马化腾表示,有三点基础性的因素是腾讯正在大力投入的,分别是AI、云计算以及大数据. 他还强调,过去把用电量作为衡量一个工业社会发展的指标,未来,用云量也会成为衡量数字经济发展的重要指标.

理解云计算

- 车东 - oneoo's 私家花园
  现在互联网最热门的关键字“云计算”,大大小小的公司纷纷加入到这块领域. 简单来说,目前的“云计算”主要分为:SaaS、PaaS和IaaS三大类.   其中SaaS云计算,为软件即服务的概念. 把传统客户端软件部署在互联网上,用户只需要一个浏览器就可以使用到软件的模式. 其实早在2000年就已经有B/S结构的软件服务,与现在所说的SaaS云计算相近,但此前的B/S结构软件服务,数据库等服务端是需要用户自行部署的,而非由软件提供商进行统一部署.

10问云计算

- - 《商业价值》杂志
与数百位关注和实践云计算的CIO们共同解读云计算热点问题. 被视作IT界第三次革命的云计算,已经从炙手可热的概念逐渐走向了实际应用. 2011年8-11月, ITValue社区联合英特尔公司,与数百位关注和实践云计算的CIO们一起展开深入探讨,话题涉及云计算的商业价值、安全性、开放性、高效性、简单性等方面.

专访QQ大数据团队,谈分布式计算系统开发

- - 互联网 - ITeye博客
NoSQL是笔者最早接触大数据领域的相关知识,因此在大家都在畅谈Hadoop、Spark时,笔者仍然保留着NoSQL博文的阅读习惯. 在偶尔阅读一篇Redis博文过程中,笔者发现了. jacksu的个人博客,并在其中发现了大量的分布式系统操作经验,从而通过他的引荐了解了QQ成立之初后台3个基础团队之一的QQ运营组,这里我们一起走进.

颠覆大数据分析之Spark弹性分布式数据集

- - 并发编程网 - ifeve.com
颠覆大数据分析之Spark弹性数据集. 译者:黄经业     购书. Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解. 将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下. MR中每次迭代都会涉及HDFS的读写,而在Spark中则要简单得多. 它仅需从HDFS到Spark中的分布式共享对象空间的一次读入——从HDFS文件中创建RDD.

雅虎BigML团队开源大数据分布式深度学习框架TensorFlowOnSpark

- - IT瘾-tuicool
雅虎 Big ML 团队今日宣布开源 TensorFlowOnSpark,用于在大数据集群上进行分布式深度学习. 下面是该团队官方发布的开源说明. 近几年,深度学习发展的非常迅速. 在雅虎,我们发现,为了从海量数据中获得洞察力,需要部署分布式深度学习. 现有的深度学习框架常常要求为深度学习单独设定集群,迫使我们要为一个机器学习流程(见下图 1)创建多个程序.

云计算的困局

- Star Ocean - It Talks--上海魏武挥的博客
有个媒体朋友打电话咨询我一个事. 说在江浙一带,有一位搞国际货运代理的民营企业家,想利用云计算来整合各种资源,比如运输车队、仓库、集装箱乃至货船. 这些资源的调配信息对任何一家从事外贸的企业都很重要,如果将这些信息放在所谓的“云”上,并加以运算,这些企业再以各种设备联入这个“云”,这位企业家觉得是一个很有前途的买卖.

开源云计算ERP ErpCore

- Le - 开源中国社区最新软件
  ErpCore是一套强大的云计算ERP开发框架,集数据库设计、软件建模、模型自动生成、界面可视化设计、业务流可自定义、全自动生成用户所需系统于一体. 在此框架上扩展出所有行业的业务系统,它让软件工程师从“建模——写代码——测试”所有繁琐重复的工作变为全自动化生成,大大简化了企业软件的开发时间和成本;同时,使用该框架扩展的所有业务子系统能够无缝连接进行数据共享,这也是云计算ERP的实现基础,杜绝了传统ERP的子.