MySQL Cluster 与 MongoDB 复制集分片设计及原理

标签: 未分类 | 发表时间:2012-04-05 02:20 | 作者:Yuanyun
出处:http://www.mysqlops.com

分布式数据库计算涉及到分布式事务、数据分布、数据收敛计算等等要求

 

分布式数据库能实现高安全、高性能、高可用等特征,当然也带来了高成本(固定成本及运营成本),我们通过MongoDB及MySQL Cluster从实现上来分析其中的设计思路,用以抽象我们在设计数据库时,可以引用的内部方法

 

首先说说关系及非关系数据库的特征

 

MySQL的Innodb及Cluster拥有完整的ACID属性

A 原子性  整个事务将作为一个整体,要么完成,要么回滚

C 一致性 事务开始之前和事务结束以后,数据库的完整性限制没有被破坏

I 隔离性 两个事务的执行是互不干扰的,两个事务时间不会互相影响

D 持久性 在事务完成以后,该事务对数据库所作的更改便持久地保存在数据库之中,并且是完全的

为了实现ACID,引入了诸如Undo、Redo、MVCC、TAS、信号、两阶段封锁、两阶段提交、封锁等实现

MySQL遵循SQL标准、使用SQL标准的情况下,可以做到RDBMS之间的无缝迁移

其丰富的数据类型、完整的业务逻辑控制及表达能力一直作为商业应用的首选

MongoDB使用集合表示数据,不拥有ACID属性,但其无类型、快速部署及快速开发得到了普遍的认可

 

不管是RDBMS还是NoSQL,无一都使用了索引结构,MongoDB支持B树索引,索引根据用户需要进行建立,可以在各个层次之间构建

在数据库中,数据有两种存放方法:

1、堆表:数据按照向后插入的方法,一直堆积在文件末尾,使用索引结构访问数据时,将在索引中得到数据指针,然后获取数据,当有数据删除时,将其从对应位置删除,对于频繁更新的堆表,需要定期进行优化,使用堆表,会导致数据顺序访问原则倍打破(在DBMS中做了访问优化),由于没有填充因子,在相同压缩算法下,空间能得到很大的节省,堆表很适合于顺序范围访问,如数据仓库等业务场景

2、索引组织表:一般索引组织表使用B+作为构造方法,整个结构如同一个倒挂的树(从数据访问流来看),路由信息存放在树枝上,所有的数据存放在叶子节点,通过双向指针将所有叶子根据顺序方式串联起来,由于时空访问局限特性,这能很大提升数据性能,DBMS根据访问存取路径访问及构造数据,访问路径深度直接影响了性能,一般建议访问路径控制在4以内(小于或等于3),原因由于访问多层路径需要消耗更高的代价及维护索引树代价越来越昂贵

我们常见的Innodb、MySQL Cluster等都是索引组织表、MyISAM为堆表,MongoDB的组织结构为堆表

拥有AICD属性的数据库拥有索引维护功能,MyISAM及MongoDB由于是堆表,且没有ACID的控制,会导致元数据与索引不一致问题,直接导致数据访问混乱,数据不一致,但由于没有ACID的要求,更新(本文所阐述的更新包括包括所有的写入操作)速度将得到很大的提升,MyISAM需要定期进行一致性check

 

MySQL Cluster 架构

Cluster分为SQL节点、数据节点、管理节点(MySQL Cluster提供了API供内部调用,外部应用程序可以通过API借口访问任意层方法)

SQL节点提供用户SQL指令请求,解析、维护管理节点列表、向管理节点发起存取路径请求、查询优化、数据merge、sort,裁剪等功能

数据节点提供数据存取,持久化、API数据存取访问等功能

管理节点维护着这个Cluster中所有数据节点的存取路径规则、备份调度等功能

 

数据节点使用分片及多份数据存储,至少存放2份,数据存放于内存中,根据管理节点的规则进行持久化,作为数据存取地,需要大量内存支持

SQL节点作为查询入口,需要消耗大量cpu及内存资源,可使用分布式管理节点,并在SQL节点外封装一层请求分发及HA控制机制可解决单点及性能问题,其提供了线性扩展功能

管理节点维护着全局路由及规则信息,需要大量的内存来支撑,可使用分布式管理节点来解决

再整个Cluster体系中,任何一个组建都支持动态扩展,线性扩展,提供了高可用,高性能的解决方案

问题:

当新增数据节点时,需要重构存取路径信息,对管理节点将造成数据重构压力,该操作只能在非业务高峰时进行

Cluster使用自动键值识别数据分布方案,如果数据有主键,则根据(1、主键、2唯一索引、3自动行标识rowid)集群个数进行取模分布,当使用非主键访问时,将导致所有簇节点扫描,影响性能(这是Cluster面对的核心挑战)

 

MongoDB 复制集:

MongoDB提供了和MySQL Cluster类似的架构,在mongod、mongos、mongo中,包含:

Mongod: 数据访问借口,将请求分发给Mongos节点

Mongs: 数据访问路由、查询优化、数据merge、sort,裁剪等功能

mongo:数据存取(使用mongo协议还提供直接数据访问)

MongoDB在构建集合时,需要提供数据分片规则,该规则将被记录再mongos中,查询请求mongod将向mongos发起请求,mongos根据存取路径在mongo中访问数据

由于MongoDB为用户提供了一个选择性,将数据如何进行切片,在对用户访问透明的情况下,快速存取数据

MongoDB面临的问题:

以非分片规则访问数据时(索引可以建立在各个分片),将导致所有Mongo簇节点全扫描(可以通过多份冗余拷贝并进行不同的分片规则实现,这也是当前数据分片应用常用的手段)

当新增数据簇时,将导致所有数据节点重构,直接影响性能

 

总结:

MongoDB使用堆表方法组织数据、不包含ACID特性对于数据大量数据更新及查询(对于拥有MVCC的架构,将降低在高并发、大数据集的响应速度)有很大的提升,但没有ACID保证关键数据的稳定、安全

MongoDB解决了MySQL Cluster的自动分片规则,将MySQL Cluster的SQL节点数据处理工作移交给mongos,能降低MySQL Cluster SQL节点与Cluster相互通信的瓶颈,提升体统性能,但无法解决跨分片查询问题及数据节点添加的稳定及性能问题

MySQL Cluster拥有完整的商业支持及通用标准支持,相对丰富的管理工具,MongoDB拥有相对的性能优势,但缺少强大的稳定及安全支撑,丰富的管理工具,两者有各自的优势,但有差不多相同的致命弱点。

 

从商业上来说,MySQL Cluster拥有足够的商业使用价值,但缺陷也很明显,MongoDB对MySQL Cluster的改进很值得思考及在日常数据架构设计,模式设计中引入,但作为大面积商业应用,MySQL Cluster和MongoDB都还有很长一段路要走,不管是固有的缺陷还是管理模式上。

 

原创文章,转载请注明: 文章地址 MySQL Cluster 与 MongoDB 复制集分片设计及原理

相关 [mysql cluster mongodb] 推荐:

MySQL Cluster 与 MongoDB 复制集分片设计及原理

- - MySQLOPS 数据库与运维自动化技术分享
分布式数据库计算涉及到分布式事务、数据分布、数据收敛计算等等要求. 分布式数据库能实现高安全、高性能、高可用等特征,当然也带来了高成本(固定成本及运营成本),我们通过MongoDB及MySQL Cluster从实现上来分析其中的设计思路,用以抽象我们在设计数据库时,可以引用的内部方法. 首先说说关系及非关系数据库的特征.

MySQL HA 高可用性,MySQL Cluster 叢集

- - SSORC.tw
而 SQL Node (mysqld程序) 只是讓我們建立資料庫、表的地方 (看得到/var/lib/mysql/XXX),只是 SQL Node 這邊是看不到實際空間用量的. manager node 及所有的 node 都要裝 mysql-cluster (到 mysql 官網下載). manager node 設定,它只要 ndb_mgm 與 ndb_mgmd 而已.

MySQL Cluster-备份恢复初步测试

- - CSDN博客数据库推荐文章
在  http://blog.csdn.net/mchdba/article/details/10544585  的第八小节里面进行扩展测试. 8.1 sql节点上面录入数据:.  8.2 管理节点上面,开始备份.  8.3 再次插入几条数据(为了保持和正式环境尽可能接近,在插入数据中间穿插了flush logs操作!).

Mongodb 与mysql 语法比较

- - haohtml's blog
mongodb与mysql命令对比. 传统的关系数据库一般由数据库(database)、表(table)、记录(record)三个层次概念组成,MongoDB是由 数据库(database)、集合(collection)、文档对象(document)三个层次组成. MongoDB对于关系型数据库里的表,但是集合中没有列、行和关系概念,这体现了模式自由的特点.

又有一家大的 MySQL distribution 支援 Galera Cluster…

- - Gea-Suan Lin's BLOG
Galera Cluster 是 Codership 所提供的 MySQL master-master 方案,與其他 master-master 方案比起來,最大的好處就在於比較不需要擔心資料同步的問題…. 剛剛看到,除了 Percona 外,又有一家 MySQL distribution 支援 Galera Cluster:「 MariaDB Galera cluster released」.

MySQL和MongoDB设计实例对比

- Sai - 火丁笔记
MySQL是关系型数据库中的明星,MongoDB是文档型数据库中的翘楚. 下面通过一个设计实例对比一下二者:假设我们正在维护一个手机产品库,里面除了包含手机的名称,品牌等基本信息,还包含了待机时间,外观设计等参数信息,应该如何存取数据呢. 如果使用MySQL的话,应该如何存取数据呢. 如果使用MySQL话,手机的基本信息单独是一个表,另外由于不同手机的参数信息差异很大,所以还需要一个参数表来单独保存.

一次惊心动魄的Percona XTRADB Cluster数据修复过程【MySQL】

- - CSDN博客推荐文章
一次惊心动魄的Percona XTRA Cluster DB数据修复过程.         2014.12.27日中午约12:30,电话响起,是同事YI的电话,告之说库中出现大量死锁,用“service mysql restart”无法重启. 这里我先说明下:我们在移动音乐项目中使用的是. Percona XTRA Cluster DB,在生成环境中,建议最低是3个节点.

小试 MariaDB Galera Cluster

- - raynix 筆記
前些时, 难得老板关注新技术, 哈哈, 我于是有机会尝试一下数据库服务器集群. 什么是 Galera Cluster. 简单的说就是3个或以上的 MariaDB 服务器相互作为镜像. 我按照 Digital Ocean 的指点, 用 AWS 上 3 个虚拟机做了个最小的集群, 下面是我的一些心得(针对 MariaDB 10.0.17):.

[mongodb] java操作mongodb

- - 数据库 - ITeye博客
           //实例化Mongo对象,连接27017端口.                               //连接名为yourdb的数据库,假如数据库不存在的话,mongodb会自动建立. //从Mongodb中获得名为yourColleection的数据集合,如果该数据集合不存在,Mongodb会为其新建立.

Percona XtraDB Cluster 搭配 HAProxy

- - 小惡魔 - 電腦技術 - 工作筆記 - AppleBOY
本篇文章紀錄安裝 Percona XtraDB Cluster (簡稱 PXC) 及搭配 HAProxy 做分散流量系統,其實在業界已經很常看到 HAProxy + MySQL Cluster Database 解決方案,HAProxy 幫您解決負載平衡,並且偵測系統是否存活,管理者也就不用擔心 MySQL 服務是否會掛掉.