为什么很多公司的大数据相关业务都基于 Hadoop 方案?

标签: 公司 大数据 相关 | 发表时间:2014-02-27 13:59 | 作者:曹坤
出处:http://www.zhihu.com

选择Hadoop的原因最重要的就是这三点:1,可以解决问题; 2,成本低 ; 3,成熟的生态圈。
一,Hadoop帮助我们解决了什么问题
无论国内还是国外的大公司对于数据都有着无穷无尽的渴望,都会想尽一切办法收集一切数据,
因为通过信息的不对称性可以不断变现,而大量的信息是可以通过数据分析得到的。

数据的来源途径非常的多,数据的格式也越来越多越来越复杂,随着时间的推移数据量也越来越大。
因此在数据的存储和基于数据之上的计算上传统数据库很快趋于瓶颈。

而Hadoop正是为了解决了这样的问题而诞生的。其底层的分布式文件系统具有高拓展性,通过数据冗余保证数据不丢失和提交计算效率,同时可以存储各种格式的数据。
同时其还支持多种计算框架,既可以进行离线计算也可以进行在线实时计算。

二,为什么成本可以控制的低
确定可以解决我们遇到的问题之后,那就必须考虑下成本问题了。
1, 硬件成本
Hadoop是架构在廉价的硬件服务器上,不需要非常昂贵的硬件做支撑

2, 软件成本
开源的产品,免费的,基于开源协议,可以自由修改,可控性更大

3,开发成本
因为属于二次开发,同时因为有非常活跃的社区讨论,对开发人员的能力要求相对不高,工程师的学习成本也并不高

4,维护成本
当集群规模非常大时,开发成本和维护成本会凸显出来。但是相对于自研系统来说的话,还是便宜的很多。
某司自研同类系统几百名工程师近4年的投入,烧钱亿计,都尚未替换掉Hadoop。

5,其他成本
如系统的安全性,社区版本升级频繁而现实是无法同步进行升级所引入的其他隐形成本。

三, 成熟的生态圈有什么好处
成熟的生态圈代表的未来的发展方向,代表着美好的市场前景,代表着更有钱途的一份工作(好吧,“三个代表”).
看图(引自: Hadoop Ecosystem Map • myNoSQL


部分系统归类:
部署,配置和监控 Ambari,Whirr
监控管理工具 Hue, karmasphere, eclipse plugin, cacti, ganglia
数据序列化处理与任务调度 Avro, Zookeeper
数据收集 Fuse,Webdav, Chukwa, Flume, Scribe , Nutch
数据存储 HDFS
类SQL查询数据仓库 Hive
流式数据处理 Pig
并行计算框架 MapReduce, Tez
数据挖掘和机器学习 Mahout
列式存储在线数据库 HBase
元数据中心 HCatalog (可以和Pig,Hive ,MapReduce等结合使用)
工作流控制 Oozie,Cascading
数据导入导出到关系数据库 Sqoop,Flume, Hiho
数据可视化 drilldown,Intellicus

使用到的公司也非常的多
(引自: A New Version of the Hadoop Ecosystem Map



— 完 —
本文作者: 曹坤

【知乎日报新版上架】无网络也能点收藏,举报评论功能新鲜开启,将精彩长评优先展示, 点此立刻更新~

此问题还有 29 个回答,查看全部。
延伸阅读:
Hadoop和bi如何结合?搭建一个基于hadoop+hive的数据仓库,它的前端展现如何实现?如何实现BI?
基于 hadoop 的 mapreduce+hdfs 的 Hive 云数据仓库除了淘宝在用外,还有哪些企业在用?应用的场景是否是结合 Hbase 一起使用?

相关 [公司 大数据 相关] 推荐:

为什么很多公司的大数据相关业务都基于 Hadoop 方案?

- - 知乎每日精选
选择Hadoop的原因最重要的就是这三点:1,可以解决问题; 2,成本低 ; 3,成熟的生态圈. 一,Hadoop帮助我们解决了什么问题. 无论国内还是国外的大公司对于数据都有着无穷无尽的渴望,都会想尽一切办法收集一切数据,. 因为通过信息的不对称性可以不断变现,而大量的信息是可以通过数据分析得到的.

大数据公司Amazon

- - 36氪 | 关注互联网创业
说到 Amazon,它通常给人的印象是一家典型的电商公司——创办于1995年,靠在线书籍销售业务起家,发展至今也已颇具规模. 近日,TechCrunch作者Alex Williams撰文称,Amazon其实并非一家贸易公司,而是一家大数据公司. 联想到Amazon CEO Jeff Bezos曾说过的一句话:“企业家应该愿意在很长一段时间内承受误解的目光.

“大数据”误区:不是所有公司都需要大数据

- - 行业资讯
   也许你并不需要大数据.   2012年“大数据”的发展如火如荼,然而本文的作者,数据分析公司SiSense副总裁BrunoAziza却认为并不是每个人都需要大数据. 从社交媒体初创公司到纽约的中央公园,每个公司似乎都在部署大数据分析.   著名数据分析公司Gartner的数据似乎也在证明这一点:最近的一份报告显示,大数据将带动2012年全球280亿美元的IT支出,到2016年这个数字将超过2300亿美元.

大数据排序或取重或去重相关问题

- - 学着站在巨人的肩膀上
给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url. 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G. 所以不可能将其完全加载到内存中处理. s 遍历文件a,对每个url求取 ,然后根据所取得的值将url分别存储到1000个小文件(记为 )中.

大数据/数据挖掘/推荐系统/机器学习相关资源

- - 互联网分析沙龙
Share my personal resources,本文贡献者为Zhe Yu. 各种书~各种ppt~更新中~ http://pan.baidu.com/s/1EaLnZ. 机器学习经典书籍小结 http://www.cnblogs.com/snake-hand/archive/2013/06/10/3131145.html.

机器学习及大数据相关面试的职责和面试问题

- - IT瘾-bigdata
· 机器学习、大数据相关岗位的职责. 各个企业对这类岗位的命名可能有所不同,比如推荐算法/数据挖掘/自然语言处理/机器学习算法工程师,或简称算法工程师,还有的称为搜索/推荐算法工程师,甚至有的并入后台工程师的范畴,视岗位具体要求而定. 机器学习、大数据相关岗位的职责. 根据业务的不同,岗位职责大概分为:.

普通程序员,如何转为当前紧缺的大数据相关人才?

- - IT瘾-bigdata
前段时间跟候选人聊天,一个有多年工作经验的资深 iOS 工程师告诉我,他最近正在学习 Machine Learning 相关的知识. 他觉得,对于程序员来说,技术进步大大超过世人的想象,如果你不跟随时代进步,就会落后于时代. 我其实已经听过很多人跟我说过类似的话. 只不过不同人嘴里提到的词汇各有不同——大数据、数据挖掘、机器学习、人工智能…… 这些当前火热的概念各有不同,又有交叉,总之都是推动我们掌控好海量数据,并从中提取到有价值信息的技术.

LinkedIn收购名片扫描公司CardMunch,免费提供相关服务

- 三心 - 36氪
职业社交网站LinkedIn刚刚收购了名片扫描技术公司CardMunch,这家公司的应用可以通过扫描名片,然后通过Mechanical Turk把名片信息转化成手机通讯录. 过去CardMunch的名片扫描服务应用零售价为2.99美元,扫描前十张名片免费,在此基础上每增加一张收费25美分. 现在该服务将免费,而且会给那些用信用卡购买的用户提供退款.

谈大数据(2)

- - 人月神话的BLOG
对于大数据,后面会作为一个系列来谈,大数据涉及的方面特别多,包括主数据,数据中心和ODS,SOA,云计算,业务BI等很多方面的内容. 前面看到一个提法,即大数据会让我们更加关注业务方面的内容,而云平台则更多是技术层面的内容. 对于大数据会先把各个理解的关键点谈完了,再系统来看大数据的完整解决方案和体系化.

大数据之惑

- - 互联网分析
算起来,接触大数据、和互联网之外的客户谈大数据也有快2年了. 也该是时候整理下一些感受,和大家分享下我看到的国内大数据应用的一些困惑了. 云和大数据,应该是近几年IT炒的最热的两个话题了. 在我看来,这两者之间的不同就是: 云是做新的瓶,装旧的酒; 大数据是找合适的瓶,酿新的酒. 云说到底是一种基础架构的革命.