对Hadoop的SWOT分析

标签: hadoop swot 分析 | 发表时间:2012-06-01 09:46 | 作者:
出处:http://www.iteye.com

在当前大数据研究与应用如火如荼的时代,Hadoop毅然成为业界的翘楚。我想本着客观的态度,从旁观者的角度分析当前Hadoop所面对的机遇与挑战。在我的认识中,SWOT分析还算全面,所以就选择这样的分析思路。当然,我分析Hadoop的初衷是我认同Hadoop所代表的方向,但不具体只是Hadoop这个产品。这个方向就是以Hadoop为代表的大数据的存储与分析平台。因此后面描述Hadoop的方方面面,同样适用于Hadoop的兄弟们。

SWOT分析是一套标准的认知模型,通过分析目标内部与外部所面临的机遇和挑战,可以对目标有全面准备地了解,一般适用于决策分析。如果想更多地了解SWOT,请参阅 SWOT分析方法
当然下面的细节分析也会按照由内到外,由机遇到挑战来逐一展开。有任何疑问或不认同,请与我讨论。如果你有更多的看法,请不吝赐教,在此提前感谢!

内部
        优势:
        1. 现成的系统
        一个现成的系统比任何的观点理论都更有说服力。GFS因为尽快推出成熟版本而在Google立足更加证明这个观点。Hadoop平台经过八年的发展,已经在很多公司担当基础的大数据存储与分析任务,这足以说明它相当优秀。

        2. 活跃的社区
        这是一个很多人维护的平台,其中不乏赫赫有名的牛人和众多孜孜不倦努力完善它的爱好者。它的社区纵观整个Apache系统圈都是相当出众的。mail-list每天都有很多新的bug、 improvement和patch。不断有人来回答新人的提问。有人提出质疑就会有人来解答。他们是Hadoop的血液。

        3. 庞大有效的生态圈
        整个Hadoop生态圈越来越让人吃惊和感到压力。更多的衍生系统出现,丰富着Hadoop能涉及的领域。实时搜索、数据挖掘、ETL、集群管理等等方面越来越完善。Hive、HBase、Pig、Zookeeper、Sqoop、Avro等不知觉升级到Apache的顶级项目,不断地伸展着Hadoop的触角。它们可以依附完整平台,也可以独立提供服务,兼容并包!

        4. 模型简单
        Hadoop依赖于HDFS和MapReduce。它们也分别依赖着不同的简单模型:单master多slave的简单存储架构和计算移动到数据上的并行计算模型。再简单的模型套在分布式环境上都能生出一堆妖蛾子来。所以,正是由于这样的简单的模型,才规避了更多的不一致性。能正常推出产品,提供比较稳定的服务。

        5. 越来越多与Hadoop有关的吸金创业公司
        像Cloudera,MapR和Hortonworks这些公司都在风投的孕育下快速成长,不断地丰富和完善企业级所需的Hadoop特性。这些公司有专业的人员、巨额的资金和良好的外部需求,在不断发展的过程中也回馈着社区的进步。华尔街也在预言下一个造福行业在大数据处理上,所以我们相信会有越来越多这样的公司出现。

        劣势:
        1. 自身的不成熟
        尽管Hadoop已经发展近八年,但是自身遇到的问题还是很多,可能跟需求变更与部署环境分不开吧。这种不稳定给使用者的印象很不好!就像NameNode的单点问题一直受人诟病,直接导致很多人不敢尝试Hadoop平台。其次,大量的bug会造成许多次版本出现,也不利于环境的维护。坎坷这么久,是需要确保HDFS跟MapReduce不要再出大的问题了。

        2. 企业级安全策略
        正常情况下,Hadoop的用户是产生大数据的公司。在公司里,最可能一棒子把产品打死的因素就是安全。不能说公司不在Hadoop平台存储敏感数据就可以不关心安全问题。数据代表着生产力,数据在哪就得将安全延伸到哪。当前Hadoop的数据安全与多用户共享策略还得继续完善。

        3. 没有有效的结果展现
        看MapReduce Job的结果很无聊吧?怎样给最终用户(一般是数据分析师)显示清晰有意义的报表是非常有必要的。Hadoop生态圈要么自己来做,要么就得集成现有数据仓库的报表展现系统。

        4. 集群监控及管理
        重中之重!公司是否使用Hadoop依赖于这套平台是否容易管理与监控,或是与企业现有的其它系统放在同样的管理与监控平台之下。当然还得有集群环境的部署、升级等等,一样让人头疼。

        5. 做的越来越多,目标反而更不明确
        这样说的原因可能是因为宣传不够吧。具体开发和定位目标的人很清楚自己想做什么,而用的人感觉越来越乱或者是连最初的需求都忘了。任何系统都有自己的定位,Hadoop也是这样。从国内的论坛来看,有些人把它当存储系统看,有些人当集群管理系统看,莫衷一是。Hive推出之后,用Hadoop搭建自助的数据分析平台成为业界的主流观点,这也是它所擅长的,不能希望它满足所有需求。

        6. 支持Online service
        在上一篇blog中,我分析了Hadoop离online系统的距离。我的初衷是试着改变大家对Hadoop的认识。其实仔细想想这是有必要的。不挂靠产品系统,就没有更大的前途。这个只是个人看法,Hadoop还没有提到这样的定位。


外部
        机会:
        1. 大数据的存储与分析正是当前业界的挑战
        有句诗说,春江水暖鸭先知。像Google这样的互联网企业每天所依赖和产生的数据是十分惊人的,它们真正地遇到了大数据的一系列问题,所以GFS/MapReduce这样的系统应势而生。开源的Hadoop平台也因此成为公司爱好的玩意:不付钱却可以解决大数据问题。具备这样有现实需求的外部环境,Hadoop才能过的很滋润。

        2. 相当多的知名企业支持它
        这是相当相当好的资源。公司在选择一个平台时,老会问的几个问题是:1. 需要付费么?2.有人维护么? 3. 哪些公司在用。看着 Hadoop的用户列表,其它项目只有嫉妒的份。

        3. 与Hadoop相关的论坛与培训变的很火
        正是有良好的外部环境,与Hadoop相关的峰会、论坛、活动及培训相当多。就从国内来看,Hadoop就像前几年的SSH一样,初学者一窝蜂地学习Hadoop的方方面面。有好处也有坏处吧!如果你有因为企业有需要或是个人想参与分布式系统的研发,那么这是有益的;否则,很可能就是跟风了。

        威胁:
        1. 越来越多的需求
        人的需求是无止境的。Hadoop说它的立业之本是处理大数据的批量计算时,就会看到很多的其它需求:Hadoop为什么不擅长小文件存储呢?Hadoop为什么不能跨数据中心呢?怎样让计算更实时些。。。 有需求是好事,说明它还值得大家的信任。为什么我把这点列为威胁,就是因为没有系统是万能的。如果需求实现起来可控,有助于Hadoop更好地发展,就没有问题。如果做出的东西很少有人用,且让整个平台异常复杂繁琐,那么这样的需求宁可不要实现。怕就怕对需求的不断妥协,只会让系统成为臃肿的胖子,而被大家敬而远之。

        2. 其它产品会以超越Hadoop为卖点
        单纯就Hadoop平台来说,这是威胁。如果其它产品确实有优异之处,为什么不用呢?

        3. 技术界“喜新厌旧”的风格
        这是通病。就如同今天这么多人追逐Hadoop一样,终有一天,技术革新之时,Hadoop这个产品也会被新的理念所抛弃。对技术学习来说,好事是可以学点新的知识,坏处就是还得辛苦学习新的知识。这就是现实!

        4. 出现技术问题时,需要专业人员解决
        企业级用户在使用Hadoop平台时,或多或少会出现一些问题或发现bug。如果依赖社区,解决起来肯定不太及时。这就得需要企业培养专业的Hadoop开发人员来应付自身出现的问题。这是一个历程,不管对企业还是程序员自己。当Hadoop变的越来越复杂时,程序员还是企业都是知难而退,而避免使用Hadoop。

这些分析很多都是个人理解,因此难免有受限之处,希望更多人提出自己的看法,有讨论就会进步地更快。当然,这些分析也希望那些刚开始学习Hadoop的人看到,因为这是一篇站在局外的分析,可能更客观些完善你对Hadoop的认识。

Keep going...



已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [hadoop swot 分析] 推荐:

对Hadoop的SWOT分析

- - ITeye博客
在当前大数据研究与应用如火如荼的时代,Hadoop毅然成为业界的翘楚. 我想本着客观的态度,从旁观者的角度分析当前Hadoop所面对的机遇与挑战. 在我的认识中,SWOT分析还算全面,所以就选择这样的分析思路. 当然,我分析Hadoop的初衷是我认同Hadoop所代表的方向,但不具体只是Hadoop这个产品.

用SWOT分析该考研还是就业

- - Starming星光社最新更新
  考研还是就业,这是一个问题,而且是每个大学生都要面对的问题. 关于考研还是就 业,这当然没有一个标准答案. 面对考研和就业,应该有不少人生导师提供了自己的参考意见. 因为我也在面对这个问题,所以就转一篇学长写的文章,说的就是用 SWOT分析该考研还是就业. 学长大四,为人潇洒,从下面的文字中应该能看出来的,哈哈.

Hadoop Metrics体系架构分析

- - 非技术 - ITeye博客
原文: http://blog.csdn.net/chenpingbupt/article/details/7957396. 本文基于Hadoop 0.20.XX版本分析,和现在的Metrics2稍有不同. Hadoop Metrics用来统计集群运行数据,比如接口调用次数,响应时间,队列长度等等,现阶段(0.19版本)支持为数不多的几个层级的数据,分别是dfs,jvm,rpc,mepred等.

Hadoop Metrics体系分析之三:构建自己的Metrics

- - Taobao QA Team
大型分布式系统中需要metrics来了解系统状态已成为系统必需的功能之一. 其实测试系统甚至测试用例中也同样需要metrics. 通过这些指标我们可以了解测试的进度、状况、以及一些过程情况,比如性能指标和一些无法用是否判断数据. 下面我们就用一个简单的例子来看看如何使用hadoop metrics.

Kylin:基于Hadoop的开源数据仓库OLAP分析引擎

- - 标点符
Kylin是一个开源、分布式的OLAP分析引擎,它由eBay公司开发,并且基于Hadoop提供了SQL接口和OLAP接口,能够支持TB到PB级别的数据量. OLAP即联机分析处理,它能够帮助分析人员、管理人员或执行人员从多角度快速、一致、交互地存取信息和更加深入的了解信息. OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求.

(转)深度分析如何在Hadoop中控制Map的数量

- - 互联网 - ITeye博客
很 多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定. 在默认情况下,最终input占据了多 少block,就应该启动多少个Mapper. 如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的 Mapper等于文件的数量(即每个文件都占据了一个block),那么很可能造成启动的Mapper数量超出限制而导致崩溃.

hadoop编程:分析CSDN注册邮箱分布情况

- - CSDN博客云计算推荐文章
hadoop编程:分析CSDN注册邮箱分布情况. 本文博客链接: http://blog.csdn.net/jdh99,作者:jdh,转载请注明. 主机:Ubuntu10.04. hadoop版本:1.2.1. 开发工具:eclipse4.4.0. 要求:原始数据共6428632条,分析不同邮箱的注册情况,并按使用人数从大到小排序.

Hadoop集群硬盘故障分析与自动化修复

- - CSDN博客推荐文章
作者:Zhang, Haohao. 硬盘在服务器中起着至关重要的作用,因为硬盘里面存储的是数据,随着制造业技术的提高,硬盘的类型也在逐渐的改变. 对于硬盘的管理是IAAS部门的责任,但作为业务运维也需要懂得相关的技术. 有的公司采用LVM来管理硬盘,这样做方便扩缩容,也有的公司直接用裸盘来存数据,这样做的好处是不会因LVM而损失掉一部分硬盘I/O速度.

X-RIME: 基于Hadoop的开源大规模社交网络分析工具

- - 并行实验室 | Parallel Labs
文 / 陈冠诚,史巨伟,杨博(IBM中国研究院),杨寅(人民搜索). 随着互联网的快速发展,涌现出了一大批以Facebook,Twitter,人人,微博等为代表的新型社交网站. 这些网站用户数量的迅速增长使得海量的用户数据不断被产生出来,而如何有效地对这些海量的用户数据进行社交网络分析(Social Network Analysis)正成为一个越来越热门的问题.

分布式系统Hadoop源码阅读与分析(一):作业调度器实现机制

- otter - 博客园-首页原创精华区
上一篇博文对Hadoop的作业调度器进行了介绍,我们知道,JobTracker和TaskTracker是Hadoop作业调度过程中最核心的两个部分,前者负责map/reduce作业的调度与分派,后者负责map/reduce作业的实际执行,它们之间通过RPC机制进行通讯. 下面将对Hadoop 0.20.2版本中作业调度相关源码进行分析,至于JobTracker和TaskTracker中与作业调度无关的源码部分,并未进行详细介绍.