Hadoop生态图谱

标签: Hadoop&HBase hadoop | 发表时间:2012-02-17 16:48 | 作者:nosqlfan
出处:http://blog.nosqlfan.com

当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。

  1. 这一切,都起源自Web数据爆炸时代的来临
  2. 数据抓取系统 - Nutch
  3. 海量数据怎么存,当然是用分布式文件系统 - HDFS
  4. 数据怎么用呢,分析,处理
  5. MapReduce框架,让你编写代码来实现对大数据的分析工作
  6. 非结构化数据(日志)收集处理 - fuse, webdav, chukwa, flume, Scribe
  7. 数据导入到HDFS中,至此RDBSM也可以加入HDFS的狂欢了 - Hiho, sqoop
  8. MapReduce太麻烦,好吧,让你用熟悉的方式来操作Hadoop里的数据 – Pig, Hive, Jaql
  9. 让你的数据可见 - drilldown, Intellicus
  10. 用高级语言管理你的任务流 – oozie, Cascading
  11. Hadoop当然也有自己的监控管理工具 – Hue, karmasphere, eclipse plugin, cacti, ganglia
  12. 数据序列化处理与任务调度 – Avro, Zookeeper
  13. 更多构建在Hadoop上层的服务 –  Mahout, Elastic map Reduce
  14. OLTP存储系统 – Hbase

相关文章:

SQL? Hadoop? 使用什么工具来处理数据?

hadoop的1TB排序

下一代Hadoop MapReduce

Hadoop调优的Cheat Sheets

来自Berlin Buzzwords 大会的Hadoop介绍PPT
无觅

相关 [hadoop 生态] 推荐:

Hadoop生态图谱

- - NoSQLFan
当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具. 这一切,都起源自Web数据爆炸时代的来临. 海量数据怎么存,当然是用分布式文件系统 -. 数据怎么用呢,分析,处理.

从问题域出发认识Hadoop生态系统

- - 董的博客
Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明. 网址: http://dongxicheng.org/mapreduce-nextgen/rethinking-hadoop-from-problems-solved/. 本博客的文章集合: http://dongxicheng.org/recommend/.

Hadoop 原生态支持常用 InputFormat OutFormat 详解

- - CSDN博客云计算推荐文章
hadoop原生态支持的常用输入数据格式:. 在jobconfig中设置mapred.input.format.class. =====================纯文本文件格式,以行为单位读入:. TextInputFormat(key:行首在文件的偏移量,value:行内容).     全称: org.apache.hadoop.mapred.TextInputFormat.

基于Hadoop生态圈的数据仓库实践 —— ETL(一)

- - CSDN博客推荐文章
一、使用Sqoop抽取数据.         Sqoop是一个在Hadoop与结构化数据存储(如关系数据库)之间高效传输大批量数据的工具. 它在2012年3月被成功孵化,现在已是Apache的顶级项目. Sqoop有Sqoop1和Sqoop2两代,Sqoop1最后的稳定版本是1.4.6,Sqoop2最后版本是1.99.6.

比较Apache Hadoop 生态系统中不同的文件格式和存储引擎的性能

- - IT瘾-bigdata
这篇文章提出了在Apache Hadoop 生态系统中对比一些当前流行的数据格式和可用的存储引擎的性能:Apache Avro, Apache Parquet, Apache HBase 和 Apache Kudu 空间效率, 提取性能, 分析扫描以及随机数据查找等领域. 这有助于理解它们中的每一个如何(何时)改善你的大数据工作负载的处理能力.

Hadoop Streaming 编程

- - 学着站在巨人的肩膀上
Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:. 采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer). 本文安排如下,第二节介绍Hadoop Streaming的原理,第三节介绍Hadoop Streaming的使用方法,第四节介绍Hadoop Streaming的程序编写方法,在这一节中,用C++、C、shell脚本 和python实现了WordCount作业,第五节总结了常见的问题.

Hadoop使用(一)

- Pei - 博客园-首页原创精华区
Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker组成. 其中NameNode,secondary NameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上.

Hadoop MapReduce技巧

- - 简单文本
我在使用Hadoop编写MapReduce程序时,遇到了一些问题,通过在Google上查询资料,并结合自己对Hadoop的理解,逐一解决了这些问题. Hadoop对MapReduce中Key与Value的类型是有要求的,简单说来,这些类型必须支持Hadoop的序列化. 为了提高序列化的性能,Hadoop还为Java中常见的基本类型提供了相应地支持序列化的类型,如IntWritable,LongWritable,并为String类型提供了Text类型.

Hadoop TaskScheduler浅析

- - kouu's home
TaskScheduler,顾名思义,就是MapReduce中的任务调度器. 在MapReduce中,JobTracker接收JobClient提交的Job,将它们按InputFormat的划分以及其他相关配置,生成若干个Map和Reduce任务. 然后,当一个TaskTracker通过心跳告知JobTracker自己还有空闲的任务Slot时,JobTracker就会向其分派任务.

HADOOP安装

- - OracleDBA Blog---三少个人自留地
最近有时间看看hadoop的一些东西,而且在测试的环境上做了一些搭建的工作. 首先,安装前需要做一些准备工作. 使用一台pcserver作为测试服务器,同时使用Oracle VM VirtualBox来作为虚拟机的服务器. 新建了三个虚拟机以后,安装linux,我安装的linux的版本是redhat linux 5.4 x64版本.