Pivotal开源基于PostgreSQL的数据库Greenplum

标签: pivotal 开源 postgresql | 发表时间:2015-11-04 17:43 | 作者:
出处:http://news.cnblogs.com/

近日,Pivotal 宣布开源大规模并行处理(MPP)数据库 Greenplum,其架构是针对大型分析型数据仓库和商业智能工作负载专门设计的。借助 MPP 这种高性能的系统架构,Greenplum 可以将 TB 级的数据仓库负载分解,并使用所有的系统资源并行处理单个查询。

Greenplum 数据库基于 PostgreSQL 开源技术。本质上讲,它是多个 PostgreSQL 实例一起充当一个数据库管理系统。Greenplum 以 PostgreSQL 8.2.15 为基础构建,在 SQL 支持、特性、配置选项和终端用户功能方面非常像 PostgreSQL,用户操作 Greenplum 就跟平常操作 PostgreSQL 一样。不过,为了支持 Greenplum 数据库的并发结构,PostgreSQL 的内部构件经过了修补。例如,为了在所有并行的 PostgreSQL 数据实例上并发执行查询,系统目录、优化器、查询执行器以及事务管理器组件都经过了修改和增强。此外,Greenplum 还引入了针对商业智能工作负载优化 PostgreSQL 的特性。例如,增加了并行数据加载、资源管理、查询优化、存储增强。这些功能是标准 PostgreSQL 所不具备的。

Greenplum 数据库的架构如下:

Greenplum master 是 Greenplum 数据库系统的入口,接受客户端连接及提交的 SQL 语句,将工作负载分发给其它数据库实例(segment 实例),由它们存储和处理数据。Greenplum interconnect 负责不同 PostgreSQL 实例之间的通信。Greenplum segment 是独立的 PostgreSQL 数据库,每个 segment 存储一部分数据。大部分查询处理都由 segment 完成。

根据 Pivotal 的开源公告,他们希望 Greenplum 会成为一个重大的里程碑,永久改变数据仓库这个行业。Greenplum 数据库与其它开源数据处理系统(如 Apache Hadoop、MySQL 甚或 PostgreSQL)的差别在架构和功能上都有体现。借助 MPP,Greenplum 在大型数据集上执行复杂 SQL 分析的速度比他们测试过的任何一个方案都要快。而借助 下一代查询优化技术,Greenplum 带来了其它开源方案中没有的数据管理质量特性、升级和扩展能力。他们相信,这样一款经过证明的、广泛采用的数据仓库开源将会在整个业界引发巨大的连锁反应。最重要的是,这降低了大规模实时数据分析的门槛,更多的公司可以参与到大数据所带来的挑战中来。

另据 InfoWorld 报道,数据库行业分析师 Curt Monash 将 Greenplum 视为分析型 RDBMS 的真正竞争者。而且,相比现有的产品(如 TeradataHP VerticaIBM NetezzaOracle Exadata),其引入成本更低。Greenplum 作为一项服务似乎是个再简单不过的选择。它有一个为人熟知的名字和广泛的用户基础。MySQL 或 PostgreSQL 也通过类似的技术提供云端服务。但是,Greenplum 真要展现出其优势,需要做好两个方面的工作:一是从现有的 Greenplum 部署移植要简单;二是有一个可行的发展路线,要么可以通过其它云托管产品富集数据,要么集成新兴的分析技术,如 Spark。

Hacker News 上,Pivotal Labs 成员 jacques_chester 回答了多名网友的问题。网友 tlrobinson 提出:

为什么 Greenplum 以 PostgreSQL 8.2 为基础,而不是更新的版本?

对此,jacques_chester 解释说,“那是因为 Greenplum 最初从该版本派生。”网友 djokkataja 的问题也是围绕这一点:

现在有计划吗?Greenplum 最终是否会与现行的 PostgreSQL 开发有同等的特性,或者 Greenplum 主要还是遵循自己的发展路线?

jacques_chester 并没有明确回答这个问题,只是说,这取决于许多因素。同时,他还指出:

Greenplum 采用 PostgreSQL  Wire Protocol。所有可以同 PostgreSQL 交互的工具都可以顺畅地同 Greenplum 交互。

还有网友担心 Greenplum 的单 master 会成为写入瓶颈,jacques_chester 答复说,这是 gpfdist 要解决的问题,只要正确使用,就可以实现批量并行加载,而且 master 不会成为瓶颈。

网友们还讨论了 Greenplum 与 ElasticSearch 的差别,感兴趣的读者可以进一步阅读。

本文链接

相关 [pivotal 开源 postgresql] 推荐:

Pivotal开源基于PostgreSQL的数据库Greenplum

- - 博客园_新闻
近日,Pivotal 宣布开源大规模并行处理(MPP)数据库 Greenplum,其架构是针对大型分析型数据仓库和商业智能工作负载专门设计的. 借助 MPP 这种高性能的系统架构,Greenplum 可以将 TB 级的数据仓库负载分解,并使用所有的系统资源并行处理单个查询. Greenplum 数据库基于 PostgreSQL 开源技术.

CitusDB发布提高PostgreSQL数据库性能的开源工具

- - TechCrunch 中国
数据库分析初创公司CitusDB今天发布CSTORE,一款针对PostgreSQL的纵列储存插件,试图抢占甲骨文的奶酪. 这款开源工具是该公司面向PostgreSQL的第一款工具,从今天开始就可以免费下载. “在批量加载数据的分析工作中,使用纵列储存的优势非常明显,”CitusDB在其 官方博客中这么写道,暗示用户使用这款工具可以达到更好的数据库性能.

基于PostgreSQL的开源分布式数据库:Greenplum

- - 标点符
Pivotal宣布开源大规模并行处理(MPP)数据库Greenplum,其架构是针对大型分析型数据仓库和商业智能工作负载专门设计的. 借助MPP这种高性能的系统架构,Greenplum可以将TB级的数据仓库负载分解,并使用所有的系统资源并行处理单个查询. Greenplum数据库基于PostgreSQL开源技术.

Postgres-XL:基于PostgreSQL的开源分布式实现

- - 标点符
Postgres-XL 全称为 Postgres eXtensible Lattice,是TransLattice公司及其收购数据库技术公司–StormDB的产品. Postgres-XL是一个横向扩展的开源数据库集群,具有足够的灵活性来处理不同的数据库任务. Postgres-XL 功能特性. 开放源代码:(源协议使用宽松的“ Mozilla Public License”许可,允许将开源代码与闭源代码混在一起使用.

PostgreSQL 9.1发布

- Kai Chen - Solidot
开源数据库项目PostgreSQL发布了v9.1版. 新版本主要的特性包括:同步复制,序列化快照隔离,支持基于列的排序,近邻邻近索引,外来数据封装,支持SELinux许可控制,等等.

PostgreSQL 9.2发布

- - Solidot
时隔一年之后,开源数据库PostgreSQL发布了v9.2版. 主要新特性包括:原生JSON支持,覆盖索引(covering indexes),改进复制和性能等. PostgreSQL显著改善了可伸缩性:线性可扩展性支持最高64核,仅扫描索引,减少CPU消耗;改进垂直可伸缩性:有效利用大服务器硬件资源,锁管理,仅访问索引等底层操作允许数据库引擎处理更大的工作负荷——每秒最高35万只读查询,每秒写入1.4万条数据.

Mysql 和 Postgresql 对比

- - 膘叔
vampire告诉我服务器上安装好了postgreSQL,他也一直在推荐这个玩意,所以了解了一下. Mysql 使用太广泛了,以至于我不得不将一些应用从mysql 迁移到postgresql, 很多开源软件都是以Mysql 作为数据库标准,并且以Mysql 作为抽象基础的,但是具体使用过程中,发现Mysql 有很多问题,所以都迁移到postgresql上了,转一个Mysql 和Postgresql 对比的文章:.

PostgreSQL与MySQL比较

- - 数据库 - ITeye博客
通过执行 MySQL 命令(mysqld)启动实例. 一个实例可以管理一个或多个数据库. 一台服务器可以运行多个 mysqld 实例. 一个实例管理器可以监视 mysqld 的各个实例. 通过执行 Postmaster 进程(pg_ctl)启动实例. 一个实例可以管理一个或多个数据库,这些数据库组成一个集群.

PostgreSQL新手入门

- - 阮一峰的网络日志
自从MySQL被Oracle收购以后, PostgreSQL逐渐成为开源关系型数据库的首选. 本文介绍PostgreSQL的安装和基本用法,供初次使用者上手. 以下内容基于Debian操作系统,其他操作系统实在没有精力兼顾,但是大部分内容应该普遍适用. 首先,安装PostgreSQL客户端. 然后,安装PostgreSQL服务器.

PostgreSQL配置优化

- - CSDN博客推荐文章
转载请注明原文出处: http://blog.csdn.net/roddick621. PostgreSQL配置优化. 200W(整个数据库大小约为300M). 准备命令:pgbench -i -s 20 pgbenchdb. 测试命令:pgbench -r -j4 -c4 -T60 testdb.