来自Facebook的一些MySQL运维经验

标签: 运维干货 DBA Facebook mysql 数据库运维 | 发表时间:2017-05-20 16:12 | 作者:99527
出处:http://www.yunweipai.com

facebook运维

1. 概要


每台机器都使用多实例的模型。 每个机器放多个实例,每个实例放多个DB。

一些信息可以参考: https://www.youtube.com/watch?v=UBHcmP2TSvk

多实例之间没有进行资源隔离,这么做是让每个实例都能发挥最大性能。

目前大部分核心业务已切换成MyRocks引擎,在机器硬件配置不变的情况,约可节省一半机器。

放在MyRocks上的核心业务主要有:Feed、Post、社交图谱等读写混合业务。

MyRocks项目地址:https://github.com/facebook/mysql-5.6

另外,MariaDB 10.2版本也即将整合MyRocks引擎。

2. 高可用机制


采用基于GTID的一主多从结构,外加一个基于lossless semi-sync机制的mysqlbinlog实现的binlog server(可以理解为MySQL 5.7的loss zero replication)。

基于多数派实现自动选主。

基于配置中心实现切换,未使用VIP。

在认为semi-sync复制可保证主从数据一致性的假设前提下,发生故障切换时,利用上述的binlog server中的日志进行补全后再选新主、切换。

若个别情况下由于特殊原因,出现从库全部挂掉的情况,会将全部请求切到主库,由它扛起所有的业务服务压力。

某个从库挂掉时,可以动态摘除。

3. 备份机制


所有的备份都是基于mysqldump实现,之所以采用mysqldump逻辑备份好处有:

  • 无需备份索引,只备份数据;
  • 备份文件压缩比高,更节省磁盘空间;
  • 改进了mysqldump,备份过程中还进行额外压缩;

上面提到,因为采用多实例、多DB结构,备份时可以多DB并行备份。当然了,也会控制并行备份的数量,避免影响在线业务性能。

备份放在集中存储(HDFS)上, 据说已达EB级别容量。

关于备份的作用定位:

  • 供数据分析环境拉数据
  • 供灾难恢复

4. 如何快速部署从库


可使用xtrabackup在现有存活的SLAVE实例上备份,也可在主库上发起备份,再利用WDT(或者是BT)协议传输到异地,用于拉起从库。

关于WDT项目:https://github.com/facebook/wdt

5. 高度自动化


面对大规模的数据库实例,手工处理完全不现实。目前在facebook主要是利用Python开发内部DB运维平台,所以Python技能方面要求比较高。

采用他们自已的osc工具执行Online DDL(也是本次DTCC大会上lulu的分享主题),它最早用PHP开发,虽早已开源,但实在不好用,所以几乎只在内部使用。这个工具不同于pt-osc,相对来说更有优势,比如可以避免使用pt-osc最常遇到的主从数据延迟问题。

项目地址: https://github.com/facebookincubator/OnlineSchemaChange

6. 团队结构及技能树


DBA团队更多的是负责私有DB云平台的建设。

Schema设计及DB拆分等由性能优化团队负责。

在线表结构变更:数据库资源申请由质量服务团队负责,做到资源的合理分布、分配,如果某个业务只需要个位数级别的DB实例,可以自行在私有DB云平台中申请部署,当数量比较大时,需要先经过质量服务团队评估通过。

数据库资源申请由质量服务团队负责,做到资源的合理分布、分配。如果某个业务需要小量DB实例,可以自行在私有DB云平台中申请部署;当数量比较大时,需要先经过质量服务团队评估通过才可以。

文章来自微信公众号:云DB

相关 [facebook mysql 运维] 推荐:

来自Facebook的一些MySQL运维经验

- - 运维派
每台机器都使用多实例的模型. 每个机器放多个实例,每个实例放多个DB. 一些信息可以参考: https://www.youtube.com/watch?v=UBHcmP2TSvk. 多实例之间没有进行资源隔离,这么做是让每个实例都能发挥最大性能. 目前大部分核心业务已切换成MyRocks引擎,在机器硬件配置不变的情况,约可节省一半机器.

微店 MySQL 自动化运维实践

- - IT瘾-tuicool
互联网时代,数据库如何满足敏捷开发,敏捷交付的要求. 传统靠DBA人肉执行的方式,在面对大量业务需求时,DBA手速再快,记忆力再好估计也不能提供好的数据库服务. 在介绍自动化运维之前,我们来了解下是怎么使用数据库的. 数据库的使用方式主要有两种:. 应用混合部署(实例):有新数据库需求时,很多人都会选择找个实例,建个数据库和帐号提供给业务.

Facebook对MySQL依赖的后果将是“比死还糟”

- DaoDao - Solidot
研究数据库技术的计算机科学家Michael Stonebraker声称,Facebook正运行着一个复杂而庞大的MySQL实现,相当于面临“比死亡还糟的命运”,唯一的出路是重新一切代码. 他表示社交巨人的困境在网络创业者中很常见. Stonebraker称,Facebook将其MySQL数据库分割成4,000个shards,以处理网站巨大的数据量;运行9000个memcached实例,以跟上数据库的事件处理量.

Facebook揭密:如何让MySQL数据库集群自主运行

- - IT经理网
Facebook运行着全球最大的MySQL数据库集群,该集群分布在两个大洲上的多个数据中心中数以千计的服务器上. 让人不解的是,Facebook只动用了一个很小的团队来管理这个庞大的MySQL数据库集群. 近日Facebook的Shlomo Priymak在Facebook博客上 发文揭开了这个秘密.

运维角度浅谈MySQL数据库优化

- - 程序师
一个成熟的数据库架构并不是一开始设计就具备高可用、高伸缩等特性的,它是随着用户量的增加,基础架构才逐渐完善. 这篇博文主要谈MySQL数据库发展周期中所面临的问题及优化方案,暂且抛开前端应用不说,大致分为以下五个阶段:. 项目立项后,开发部根据产品部需求开发项目,开发工程师工作其中一部分就是对表结构设计.

Facebook运维内幕曝光:一人管理2万台服务器

- - ITeye资讯频道
目前,Facebook 已经凭借它在网络基础建设上的可扩展能力成为了行业的领军者. Facebook 数据中心运维主管 Delfina Eberly(图中人物) 在“7x24 Exchange 2013 秋季会议”上的演讲中为我们透露了 Facebook 部分内部运维数据,下面我们来具体了解下. 服务器数量惊人,一人管理 2 万台.

【转载】单表60亿记录等大数据场景的MySQL优化和运维之道 | 高可用架构

- - 数据库 - ITeye博客
此文是根据杨尚刚在【QCON高可用架构群】中,针对MySQL在单表海量记录等场景下,业界广泛关注的MySQL问题的经验分享整理而成,转发请注明出处. 扩展性“好”,在一定阶段扩展性好. 性能可以满足互联网存储和性能需求,离不开硬件支持. 上面这几个因素也是大多数公司选择考虑MySQL的原因. 不过MySQL本身存在的问题和限制也很多,有些问题点也经常被其他数据库吐槽或鄙视.

中国的Facebook?

- Lorna - It Talks--上海魏武挥的博客
腾讯近日很低调地推出了一个名为“朋友”的网络服务(也是一个使用独立域名的网站),这是一个与时下社交网站,比如人人、开心等非常类似的产品. 与它们一样,目前这个“朋友”上也加载了一些应用,当然,一贯的,以腾讯自家出品为主. 而且,我个人以为,未来会有更多的腾讯在QQ这个客户端上的应用,逐步向这个网站迁移.

Facebook初探

- 亦农 - 王建硕
今天的湾区阳光灿烂,280州际公路两边的绿色山坡和蔚蓝的白云,让人觉得自己是Windows XP桌面上的一个图标. 下午,2点,终于来到Facebook这个神奇的公司. 他们的新家在南加利福尼亚街的最里面,一幢两层的楼里. 他们刚刚从车位紧张的Palo Alto城里搬到这里,据说一层楼又要搬了. 我好像是他们再次搬地方前的最后一批访客.

Facebook败给Foursquare

- We_Get - GeekPark 捕风捉影
除了我们熟知的QQ,互联网世界里以自身强大资源来复制小公司的产品和服务的事,绝不少见. 去年8月份,Facebook推出了Facebook Places,这是一个类似Foursquare的基于地理位置的手机在线签到功能. Foursquare当时是社交网站新贵,几个月以后它成了代表着全球互联网方向中的SoLoMo中的Lo—Location.