简讯:2013年Hadoop实时查询将成现实

标签: 程序员 资讯 Hadoop | 发表时间:2012-12-08 00:52 | 作者:
出处:http://blog.jobbole.com

2013年Hadoop实时查询将成现实,Cloudera公司的两个新项目: Impala 和  Trevni,将有助在2013年实现Hadoop实时查询。

Impala 是开源版的  Dremel (Dremel 是 Google 大数据查询解决方案,其原理可参见这篇博文《 Google Dremel 原理 – 如何能3秒分析1PB》)。预计明年第一季度发布 Impala 的首个 beta 版。

Impala 允许你在 Hadoop 的 HDFS、  Hbase 和  Hive 之上运行实时查询。不必迁移。

不过真正的变革,还得把 Doug Cutting (Lucene和 Hadoop等的作者)做的 Trevni 和 Impala 整合在一起。Trevni 是一种新的列式(columnar)数据存储格式,可保证读取大型列式存储数据集有极好性能。

在大数据实时查询性能方面, Impala+Trevni 很有希望和 Google 的 Dremel 处于同一个级别,并有更多的功能。

Hadoop logo

 

英文原文: Maarten Ectors,编译: 伯乐在线

译文链接: http://blog.jobbole.com/31137/

【如需转载,请在正文中标注并保留原文链接、译文链接和译者等信息,谢谢合作!】

 

相关文章

相关 [简讯 hadoop 实时] 推荐:

简讯:2013年Hadoop实时查询将成现实

- - 博客 - 伯乐在线
2013年Hadoop实时查询将成现实,Cloudera公司的两个新项目: Impala 和  Trevni,将有助在2013年实现Hadoop实时查询. Impala 是开源版的  Dremel (Dremel 是 Google 大数据查询解决方案,其原理可参见这篇博文《 Google Dremel 原理 – 如何能3秒分析1PB》).

Facebook的实时Hadoop系统

- wangjia - Solrex Shuffling
Facebook 在今年六月 SIGMOD 2011 上发表了一篇名为“Apache Hadoop Goes Realtime at Facebook”的会议论文 (pdf),介绍了 Facebook 为了打造一个实时的 HBase 系统使用到的独门秘技. 由于该论文提到的应用场景与小弟负责的系统要解决的问题域有相似之处,因而抽时间仔细阅读了这篇论文.

论文:Hadoop在Facebook的实时应用

- Adam - NoSQLFan
Facebook在其最新的消息系统中使用了HBase,这已经不是什么新闻了,而HBase与其基础设施HDFS也因此越来越受追捧,下面是Facebook在SIGMOD 2011大会上发表的论文,描述了Hadoop系列工具在Facebook中的应用情况. Facebook为何选择了Hadoop和HBase.

MySQL添加Hadoop数据实时复制功能

- - searchdatabase
  MySQL复制操作可以将数据从一个MySQL服务器(主)复制到其他的一个或多个MySQL服务器(从). 试想一下,如果从服务器不再局限为一个MySQL服务器,而是其他任何数据库服务器或平台,并且复制事件要求实时进行,是否可以实现呢?.   MySQL团队最新推出的 MySQL Applier for Hadoop(以下简称Hadoop Applier)旨在解决这一问题.

基于OGG的Oracle与Hadoop集群准实时同步介绍 - 偶素浅小浅 - 博客园

- -

Hadoop Streaming 编程

- - 学着站在巨人的肩膀上
Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:. 采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer). 本文安排如下,第二节介绍Hadoop Streaming的原理,第三节介绍Hadoop Streaming的使用方法,第四节介绍Hadoop Streaming的程序编写方法,在这一节中,用C++、C、shell脚本 和python实现了WordCount作业,第五节总结了常见的问题.

Hadoop使用(一)

- Pei - 博客园-首页原创精华区
Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker组成. 其中NameNode,secondary NameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上.

Hadoop MapReduce技巧

- - 简单文本
我在使用Hadoop编写MapReduce程序时,遇到了一些问题,通过在Google上查询资料,并结合自己对Hadoop的理解,逐一解决了这些问题. Hadoop对MapReduce中Key与Value的类型是有要求的,简单说来,这些类型必须支持Hadoop的序列化. 为了提高序列化的性能,Hadoop还为Java中常见的基本类型提供了相应地支持序列化的类型,如IntWritable,LongWritable,并为String类型提供了Text类型.

Hadoop TaskScheduler浅析

- - kouu's home
TaskScheduler,顾名思义,就是MapReduce中的任务调度器. 在MapReduce中,JobTracker接收JobClient提交的Job,将它们按InputFormat的划分以及其他相关配置,生成若干个Map和Reduce任务. 然后,当一个TaskTracker通过心跳告知JobTracker自己还有空闲的任务Slot时,JobTracker就会向其分派任务.

HADOOP安装

- - OracleDBA Blog---三少个人自留地
最近有时间看看hadoop的一些东西,而且在测试的环境上做了一些搭建的工作. 首先,安装前需要做一些准备工作. 使用一台pcserver作为测试服务器,同时使用Oracle VM VirtualBox来作为虚拟机的服务器. 新建了三个虚拟机以后,安装linux,我安装的linux的版本是redhat linux 5.4 x64版本.