双机房灾备架构搭建实践

标签: 运维干货 双机房 架构搭建 灾备 | 发表时间:2017-08-23 12:21 | 作者:小码哥
出处:http://www.yunweipai.com

1. 背景

机房

作为运维哥,每逢佳节倍担心,除了定期到机房贴符拜拜,我们还有什么办法,保障我们的服务不受硬件故障的困扰呢。

对很多互联网企业来说,服务长时间停摆,意味着无法估量的损失。接下来我们介绍一个简单快捷的方法,搭建双机房灾备服务。当业务所在机房发生网络或者机器故障时,能够迅速转移并恢复我们的服务。

2. 双机房灾备架构

不同产品的组件和架构差别很大。下面是基于lnmp的web站点,最基本的双机房灾备服务架构, 仅供参考。

架构

M机房为主机房,S机房为冷备机房,满足现有业务,并且方便未来扩展的前提下,我们尽可能把架构设计得越简单越好。华丽而复杂的组件,通常也伴随着可观的维护成本。

3. 一步步搭起来

3.1 web程序同步

web程序同步其实就是文件的同步,最简单的就是定时rsync。不过这个方式太古老,后来我们测试了lsyncd和sersync两款基于inotify的实时同步工具。最终选定整体性能和稳定性表现更好的lsyncd作为我们的代码同步工具。

这里简单贴下适合我们使用场景的测试条件和结果:

  • 测试目录包含8215个子目录,51587个文件,共 4.3G。
  • 源机和目标机均为标配8核16G内存146G硬盘,内网通过1000M交换机互联。
  • 源机服务开启sshd,lsyncd/sersync。
  • 目标机服务开启sshd,rsync daemon。

测试结果如下:

lsyncd的官网: https://github.com/axkibe/lsyncd

rsync daemon和lsyncd的安装方法就不再赘述。这里给一个lsyncd同步web程序的参考配置(lua语法):

settings  {   logfile = “/usr/local/lsyncd/logs/lsyncd.log”,   statusFile = “/usr/local/lsyncd/logs/lsyncd.status”,   maxDelays = 100,   delay = 5,   exitcodes = {[0] = “ok”, [1] = “again”, [2] = “die”},   maxProcesses = 5,   statusInterval = 5 } — 同步到主机 sync {    default.rsync,    source    = “/opt/web/ser”,    target    = “[email protected]::ser_master”,   — 排除隐藏文件及临时文件,可以按具体需求修改    exclude={ “.*”, “*.tmp”, “*.bak”, “*.swp” },    rsync     = {        compress = false,        archive = true,        verbose = true,      — _extra用于手动指定rsync参数,默认建议设置超时,避免rsync进程卡死      _extra = {“–timeout=3600”},        password_file = “/usr/local/lsyncd/etc/ser_master.pas”    } }

还可以把web服务端的配置文件(比如nginx vhost配置文件)也加到lsyncd自动同步中,然后定义触发重新加载配置的命令,这个就交给你自己发挥了。

3.2 mysql数据同步

mysql数据同步,是利用mysql双向主从来完成的,俗称mysql主主同步。

两个机房之间mysql数据同步,要考虑数据传输安全性和避免数据冲突。

(1) 数据传输安全性

可以参考之前我们的文章《远程访问mysql?教你为数据传输再加把安全锁!》。 下面介绍基于ssl进行数据加密同步。

首先使用openssl或者easyrsa配置生成ca、私钥和证书等。生成好证书后,配置到my.cnf中:

master

[mysqld] server-id=1 ssl ssl-ca=/opt/ssl/cacert.pem ssl-cert=/opt/ssl/srv.crt ssl-key=/opt/ssl/srv.key

slave

[mysqld] server-id=2 ssl ssl-ca=/opt/ssl/cacert.pem ssl-cert=/opt/ssl/srv.crt ssl-key=/opt/ssl/srv.key

(2) 避免数据冲突

mysql采用奇偶分离的配置,表在设计时以自增id为主键,一边写入id为奇数,一边写入为偶数,即使发生两边同时写入的情况,也能保证主键不冲突。在前面的配置,继续增加下面内容:

master

[mysqld] ##自动增量为2,允许最多2台数据库实例加入。 auto_increment_increment = 2 ##表示偏移值,每个数据库的偏移值必须唯一,且在1和auto_increment_increment之间。 auto_increment_offset   = 1

slave

[mysqld] auto_increment_increment = 2 auto_increment_offset   = 2

3.3 cache数据同步

稍有点用户量的网站,web程序直接读写mysql,机器很快会撑不住,这时就少不了缓存技术的使用。

我们选用安装简单(rpm方式)、配置管理(web方式)同样简单的couchbase,而且完全兼容memcached的使用。

官网下载链接:https://www.couchbase.com/downloads

安装方案参考官网文档。

安装完成后,可以看到我们两个机房两台机器在同一个集群里,缓存数据就能够相互同步了。

异地服务两个节点:

数据

memcached实例:

memcached

3.4 使用dnspod配置D监控

dnspod为我们解析站点域名,同时有一个D监控功能,在我们的双机房灾备中,起到自动进行故障转移,切换到其他正常运行机器的作用。

监控

4. 结语和新的开始

到这里,我们已经明白搭建双机房灾备服务的关键步骤。不过想想这套冷备方案也有一些明显的缺点,比如

(1) 备机一直空跑,虽然可以拿来做定时数据备份,但是否还是有点浪费资源。

(2) 如果运气不错,一年半载都没切换过备机,如果下次真的需要切换时,是否有信心立即切换过去。

(3) dns切换期间,域名解析大概需要5分钟生效时间,其实用户是受影响的,可否把影响再继续降低些。

要解答这些问题,我们需要更高级的设计架构。冷备让我们心中有了保障,然而异地双活才是优雅的远方。

在异地双活改造时,一开始想着把冷备激活就可以了。然后发现有些业务必须依赖于两地数据的强一致性。就算拉个专线,或者提供多线路的切换容灾,但因为网络延时的不稳定,数据的一致性还是没法绝对保证。甚至有可能被利用来恶意重复刷取站点资源。

在茫然无解的时候,因为一个不完美思想的指导,重新找回了方向。接下来将从这几个方面进行异地双活的实现:

(1) 从业务层面,梳理出重点核心业务,优先考虑核心业务的异地双活。

(2) 再按双活实现难易程度,把既核心又容易实现的业务排在第一位实现。

(3) 同时一个业务流程下来,中间涉及的小业务模块也跟着实现异地双活,保证核心流程在一个地方就能独立顺利完成。

举个例子,有一个站点包括注册、登录、充值3个服务。

从业务量和影响面来分析,我们发现登录请求占90%以上,然后登录刚好也是最不依赖于数据实时一致性的业务,用户注册完,资料就开始进行同步了,以后再登录的时候,数据早已经两地同步完成,就算在两地快速切换,最多因为缓存的丢失,只是要求用户重新登录一次,不会出现登录失败的情况。

而注册或者充值平时业务量小,如果做了双活,在出现故障,快速进行两地切换时,可能存在注册信息冲突不一致,或者两地重复充值的情况。所以平时我们只要给登录、充值做好冷备服务就可以了。

相关 [机房 灾备 架构] 推荐:

双机房灾备架构搭建实践

- - 运维派
作为运维哥,每逢佳节倍担心,除了定期到机房贴符拜拜,我们还有什么办法,保障我们的服务不受硬件故障的困扰呢. 对很多互联网企业来说,服务长时间停摆,意味着无法估量的损失. 接下来我们介绍一个简单快捷的方法,搭建双机房灾备服务. 当业务所在机房发生网络或者机器故障时,能够迅速转移并恢复我们的服务. 不同产品的组件和架构差别很大.

携程Hadoop跨机房架构实践_yukangkk的技术博客-CSDN博客

- -
陈昱康,携程架构师,对分布式计算和存储、调度、查询引擎、在线离线混部、高并发等方面有浓厚兴趣. 本文将分享携程Hadoop跨机房架构实践,包含Hadoop在携程的发展情况,整个跨机房项目的背景,我们跨机房的架构选型思路和落地实践,相关的改造和对未来的展望,希望给大家一些启迪. 一、Hadoop在携程的落地及发展情况.

架构

- - IT瘾-dev
网关:Nginx、Kong、Zuul. 缓存:Redis、MemCached、OsCache、EhCache. 搜索:ElasticSearch、Solr. 熔断:Hystrix、resilience4j. 负载均衡:DNS、F5、LVS、Nginx、OpenResty、HAproxy. 注册中心:Eureka、Zookeeper、Redis、Etcd、Consul.

Dataguard搭建灾备库操作手册

- - CSDN博客数据库推荐文章
数据库:Oracle11gr2. alter system set db_unique_name='erpdb' scope=spfile;  --我们让主库db_name=db_unique_name. 将两边库的监听、tns都配好,能互相tnsping通. 创建主库的密码文件,传送到dg库. 或者dg库直接创建密码文件,sys密码与主库一致.

信息架构

- Michael - Tony-懒得设计
写几篇关于信息架构的文章,系统地输出我理解的信息架构. 发了一篇关于招信息架构实习生的博客,收到不少简历. 但谈起信息架构,多数不了解,稍微了解的扯了很多很偏的东西. 随手搜索了一下,我发现了原因:. 1 《web信息架构》这本书太概念,太学术. 2 有人绑架了“信息架构”这个词,拿出去唬人,内容都是皮毛或者是根本和信息架构不沾边的东西.

CSS架构

- - 博客 - 伯乐在线
英文原文: CSS Architecture,编译: CSDN-张红月. Philip Walton 在AppFolio担任前端工程师,他在Santa Barbara on Rails的聚会上提出了CSS架构和一些最佳实践,并且在工作中一直沿用. 擅长CSS的Web开发人员不仅可以从视觉上复制实物原型,还可以用代码进行完美的呈现.

Linux的架构

- - 博客园_首页
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明. 我们以下图为基础,说明Linux的架构(architecture). (该图参考《 Advanced Programming in Unix Environment》). 最内层是我们的硬件,最外层是我们常用的各种应用,比如说使用firefox浏览器,打开evolution查看邮件,运行一个计算流体模型等等.

LMAX架构(转)

- - 企业架构 - ITeye博客
LMAX是一种新型零售金融交易平台,它能够以很低的延迟(latency)产生大量交易(吞吐量). 这个系统是建立在JVM平台上,核心是一个业务逻辑处理器,它能够在一个线程里每秒处理6百万订单. 业务逻辑处理器完全是运行在内存中(in-memory),使用事件源驱动方式(event sourcing).

软件架构

- - 研发管理 - ITeye博客
    对于外包业务类型的项目,软件架构设计的目的与产品类型的项目有所不同,在这里主要讨论外包类型项目的软件架构设计目的.     1、为大规模开发提供基础和规范,并提供可重用的资产,软件系统的大规模开发,必须要有一定的基础和遵循一定的规范,这既是软件工程本身的要求,也是客户的要求. 架构设计的过程中可以将一些公共部分抽象提取出来,形成公共类和工具类,以达到重用的目的.