Greenplum Pivotal HD结合了SQL和Hadoop的优势

标签: greenplum pivotal hd | 发表时间:2013-03-01 16:29 | 作者:
出处:http://pipes.yahoo.com/pipes/pipe.info?_id=10560380f804c7341f042a2b8a03e117

EMC Greenplum宣布了一个新的Hadoop发行版本—— Pivotal HD,其中包含一个完全运行于HDFS之上的MPP数据库,兼容SQL,而且速度“比Hive快数百倍”。

Pivotal HD支持标准Hadoop发型版本的常用特性(包括HDFS、Pig、Hive、Mahout和Map-Reduce等),但又加入了一些其他的组件,具体如下面结构图所示: 

Pivotal的主要组件是 HAWQ,这是一个MPP(Massively Parallel Processing)关系数据库,借助一种动态流水线机制直接运行于Hadoop中的HDFS之上,其特性包括:

  • 兼容SQL——支持各个版本的SQL,包括SQL92、SQL99和SQL 2003 OLAP等。百分之百兼容PostgreSQL 8.2。
  • 面向行或面向列的数据存储。
  • 查询优化器——查询可以运行于成千上万个节点上。
  • 完全兼容ODBC/JDBC。
  • 交互式查询——大数据集上的复杂查询可以以秒级或次秒级的速度解决。
  • 数据管理——提供了表统计和表安全等功能。
  • 支持存储在HDFS、Hive、HBase、Avro、ProtoBuf、分隔的文本和序列化文件中的数据。
  • 深度分析——包含了数据挖掘和机器学习算法。

Greenplum的高级技术总监Gavin Sherry做了一个演示(见该 视频的42分42秒),在60个节点组成的HDFS集群上,有总量达几个TB的10亿行数据,下列SQL语句可以在13秒内执行完,这提供了接近实时的能力:

   

SELECT gender, count (*)
FROM retail.order JOIN customers ON retail.order.customer_ID = customers.customer_ID
GROUP BY gender;

据EMC Greenplum 的解决方案架构师 Donald Miner介绍,“ HAWQ比Hive快数百倍”,下图是Greenplum提供的基准测试结果( PDF):

HAWQ能够在“次秒级别内”解决查询问题,“同时做到了在同一引擎内支持规模更大的数据集和完整的SQL表达能力”。Miner解释了这是如何做到的:

我们有所谓的“分段服务器(segment server)”来管理每个表的一个分片。集群中的每个数据节点上会运行一些分段服务器。不过这种数据分片是完全保存在HDFS内的。有一个“主节点”负责存储顶层元数据、构建查询计划并将节点本地的查询推送到分段服务器上。

在查询启动时,数据将从HDFS中读出并加载到HAWQ执行引擎中。HAWQ遵循MPP架构,不同于将数据溢出到磁盘上和在磁盘上建立检查点(如MapReduce),它会让数据流过流水线的不同阶段。另外,分段服务器是一直运行的,所以不存在启动时间。

Pivotal HD有三个版本( PDF):企业版、数据库服务版和用于评估的社区版。
查看英文原文: Greenplum Pivotal HD Combines the Strengths of SQL and Hadoop 

您可能也会喜欢

相关 [greenplum pivotal hd] 推荐:

Greenplum Pivotal HD结合了SQL和Hadoop的优势

- - InfoQ cn
EMC Greenplum宣布了一个新的Hadoop发行版本—— Pivotal HD,其中包含一个完全运行于HDFS之上的MPP数据库,兼容SQL,而且速度“比Hive快数百倍”. Pivotal HD支持标准Hadoop发型版本的常用特性(包括HDFS、Pig、Hive、Mahout和Map-Reduce等),但又加入了一些其他的组件,具体如下面结构图所示: .

Pivotal开源基于PostgreSQL的数据库Greenplum

- - 博客园_新闻
近日,Pivotal 宣布开源大规模并行处理(MPP)数据库 Greenplum,其架构是针对大型分析型数据仓库和商业智能工作负载专门设计的. 借助 MPP 这种高性能的系统架构,Greenplum 可以将 TB 级的数据仓库负载分解,并使用所有的系统资源并行处理单个查询. Greenplum 数据库基于 PostgreSQL 开源技术.

聊聊Greenplum发展过程

- -
笔者有幸从04年就开始从事大规模数据计算的相关工作,08年作为Greenplum 早期员工加入Greenplum团队(当时的工牌是“005”,哈哈),记得当时看了一眼Greenplum的 架构(嗯,就是现在大家耳熟能详的那个好多个X86框框的图),就义无反顾地加入了,转眼之间,已经到了第8个年头.

大规模并行处理系统 Greenplum

- Le - 开源中国社区最新软件
Greenplum是一家总部位于美国加利福尼亚州,为全球大型企业用户提供新型企业级数据仓库(EDW)、企业级数据云(EDC)和商务智能(BI)提供解决方案和咨询服务的公司. Greenplum的架构采用了MPP(大规模并行处理). 在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等.

Greenplum VS ClickHouse (单表11亿数据)

- -
公司的一个报表业务,数据量比较大,用户使用频繁. 为了更好的用户体验,我们之前尝试过多种技术:MongoDB、ElasticSearch、Greenplum 等,但是一直没办法做到大部分查询秒级响应. 前段时间探索了很多大数据产品,无意中发现 ClickHouse,很快就被其极致的性能所吸引. 在一番实验和研究后,我们决定用 ClickHouse 解决这个历史债务.

基于PostgreSQL的开源分布式数据库:Greenplum

- - 标点符
Pivotal宣布开源大规模并行处理(MPP)数据库Greenplum,其架构是针对大型分析型数据仓库和商业智能工作负载专门设计的. 借助MPP这种高性能的系统架构,Greenplum可以将TB级的数据仓库负载分解,并使用所有的系统资源并行处理单个查询. Greenplum数据库基于PostgreSQL开源技术.

[转][转]开源数据仓库解决方案GreenPlum

- - heiyeluren的blog(黑夜路人的开源世界)
Greenplum DB 号称是世界上第一个开源的大规模并行数据仓库,最初是基于 PostgreSQL,现在已经添加了大量数据库方面的创新. Greenplum 提供 PD 级别数据量的强大和快速分析能力,特别是面向大数据方面的分析能力,支持大数据的超高性能分析查询. GreenPlum 主要特性:.

开源OLAP引擎哪个快? (Presto、HAWQ、ClickHouse、GreenPlum) - 知乎

- -
现在大数据组件非常多,众说不一,在每个企业不同的使用场景里究竟应该使用哪个引擎呢. 这是易观Spark实战营出品的开源Olap引擎测评报告,团队选取了Hive、Sparksql、Presto、Impala、Hawq、Clickhouse、Greenplum大数据查询引擎,在原生推荐配置情况下,在不同场景下做一次横向对比,供大家参考.

iRiver Story HD实拍图集

- 流水不争先 - Engadget 中国版
继续阅读全文 iRiver Story HD实拍图集. 此文章网址 | 转寄此文章 | 回应.

森海塞尔HD 555如何变成HD 595

- 1212e - Solidot
森海塞尔HD 555耳机零售价约千元,HD 595耳机零售价约一千六百元. 一位Mod爱好者仔细比较了HD 595和HD 555,发现两者的物理差异是廉价的HD 555内多了一片泡沫,阻挡了50%的外向通风,轻微改变了频率响应. 将HD 555改装成HD 595的方法是打开耳机外壳,把泡沫垫拉出来.