异地双活的四个误区 - 旁观者 - 博客园

标签: | 发表时间:2019-03-09 06:56 | 作者:
出处:http://www.cnblogs.com

郑昀(老兵笔记) 20190305

阿里云华北二机房2019年3月3日凌晨服务中断长达三小时,我在微博上喊出了:工程师赶紧起床,切多活流量啊。


那么切多活有什么常见误区呢?

A,灾备(主备)还是双活?
多年前,大家往往做成了灾备机房,一主一备。结果是,真正灾难发生的时候,最高领导人下不了决心切机房,因为无法预料切换后果(灾难总是不期而遇,切过去就可能切不回来了)。
所以一定是多个数据中心同时运行着同样的应用,拥有同样的数据,任何一个客户的交易可以在分钟级全部路由到另一个中心并对外提供服务,不至于说灾难来临时才发现集群无法工作。

B,双活测试模拟正常流量切换就够了吗?
不是模拟在正常情况下的多活切换,那怎么测怎么有。
而是模拟灾难发生(突然发生)的时候,另外一个机房物理消失了,你该如何切换。
我们过去犯的两个错误是:
-用代码逻辑限制双活机房之间的数据库同步不能延时超过N分钟,超过了就阻止切换;
-限制双活机房的 otter 服务访问超时时间不得超过N分钟,超过了就阻止切换。
问题就在于,真正灾难发生的时候,机房已物理不可访问了,这时候就是要立刻地、全部地切换流量,人下达的命令就是最终裁决。拼着损失一分钟的交易和脏数据,也要把交易切到另一个机房。

C,所有业务都双活吗?
基于互联网公司常用的基本可用性保障原则,只是保障核心业务双活。
怎么定义核心业务?即不能容忍中断的服务。
用户注册,商户进件,这些都属于能容忍临时性中断的服务。
非核心业务应用都被标记为非多活业务,非多活数据库与多活数据库要严格区分开来。

D,切机房的时候直接切吗?
双活意味着两个机房都不需要维护一个能承载所有流量的集群,否则太费钱。
所以模拟切机房流量的时候,一定要测试与核心业务有关的所有应用自动扩容,扩容之后再切换流量。测试扩容的效率,分钟级扩容完毕。
所以你的应用最好都是部署在Docker容器集群上的,这样才能做到扩容分钟级。
而且大家一般是混合云部署,所以在不同的云平台上,你的应用部署底层基础最好都一模一样,方便你扩容和切换。

-EOF-
欢迎订阅老兵笔记:

 

相关 [双活 旁观者 博客] 推荐:

异地双活的四个误区 - 旁观者 - 博客园

- -
郑昀(老兵笔记) 20190305. 阿里云华北二机房2019年3月3日凌晨服务中断长达三小时,我在微博上喊出了:工程师赶紧起床,切多活流量啊. 多年前,大家往往做成了灾备机房,一主一备. 结果是,真正灾难发生的时候,最高领导人下不了决心切机房,因为无法预料切换后果(灾难总是不期而遇,切过去就可能切不回来了).

我当初是怎么管理技术团队的 - 旁观者 - 博客园

- -
关键词:管理技术人才、管理技术团队、技术传承、对题集/错题集、研发哲学. 窝窝技术团队大约两三百人左右,主要是五大块:研发、数据、无线、质量、运维. 2012年年初,一个大项目结束后,我召开了飞行研讨会,经过这次深刻反思,形成了几个影响深远的管理观点:. 管理者要向下提供工具,以形成干部的简单、易记忆、易执行的工作套路.

云纵持续交付环境管理进化历程 - 旁观者 - 博客园

- -
破天(李进庄)、冬草(宋玥辉) 创作于2018-9-10. 一个公司的运维能力强弱和你线上环境敲命令是有关的,. 你越是喜欢上线敲命令,你的运维能力就越弱,. 越是通过自动化来处理问题,你的运维能力就越强. 持续集成(Continuous Integration, CI)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成.

那些年我们一起犯过的错 - 旁观者 - 博客园

- -
阶段性小结: 错误是我们的财富. 对于事故处理,我们遵从航天二十字诀: 定位准确、机理清楚、可以复现、措施有效、举一反三. “丰田生产体系”与航空航天的这个原则是相通的,如果对待错误的态度是开诚布公的,那么整套系统就能从中学习,能取得进步. 我们坚持每错必查、错了又错就整改、每错必写,用身体力行告诉每一个新员工直面错误、公开技术细节、分享给所有人,长此以往,每一次事故都会变为我们的财富.

异地多活(异地双活)实践经验 - CSDN博客

- -
异地多活(异地双活)是最近业界讨论比较多的话题,特别是前一阵子支付宝机房光纤故障和携程网数据库丢失之后,更加唤起了技术人员们对异地容灾的考虑. 而异地多活比异地容灾更高一级,因为异地容灾仅仅是一个冷备的概念,而异地多活却是指有两个或者多个可以同时对外服务的节点,任意一个点挂了,也可以迅速切换到其他节点对外服务,节点之间的数据做到准实时同步.

呵旁观者文 (梁启超)

- 云透 - 非常日报
天下最可厌、可憎、可鄙之人,莫过于旁观者. 旁观者,如立于东岸,观西岸之火灾,而望其红光以为乐;如立于此船,观彼船之沈溺,而睹其凫浴以为欢. 若是者,谓之阴险也不可,谓之狠毒也不可,此种人无以名之,名之曰无血性. 嗟乎,血性者,人类之所以生,世界之所以立也;无血性,则是无人类、无世界也. 故旁观者,人类之蟊贼,世界之仇敌也.

技术总监是干什么的? - 旁观者

- - 博客园_旁观者-郑昀
郑昀 创建于2013/12/16. 最后更新于2014/2/24. 本文遵循 Creative Commons 姓名标示-非商业性使用-禁止演绎 许可协议. 转载时请注明“转载自知乎”或者给出转载文章的 原始链接. 庄表伟曾撰文 谈及研发管理 的三个提升,由于研发、质量保障、运维三者连接紧密、不分家,所以下面郑昀将其扩展了一下:要『从一个整体来考虑企业的研发管理,应该注重建立一个良性的循环:.

【外刊IT评论网】“旁观者效应”是如何毁掉我们的代码的

- - 外刊IT评论
1964年,纽约昆斯区,28岁的Kitty Genovese在经受了长达35分钟的性侵犯后最终被谋杀致死,共有38个本地区人性正常的居民经过,但没有一人提供帮助. 图片来源: Abu Badali, CC 2.5, via. 这个故事例证了 ‘旁观者效应’中的一个不幸的心理特:援助的几率与旁观者人数成反比.

被小伙伴们蠢哭了的那些事儿:找回密码篇 - 旁观者

- - 博客园_旁观者-郑昀
郑昀 创建于2014-01-12;. 最后更新于2014-01-13.. 找回密码功能是漏洞传统重灾区,下面列出两个经典错误点,请引以为戒吧Web开发工程师们. 一)以为用户不会抓包不会看源码不会分析表单参数,HTML文档和表单里想写啥就写啥. +手机App的忘记密码功能:. 首先,通过抓包分析,发现密码重置接口可以Web访问;其次,填入手机号码提交,.

博客之尾

- FQX - Nings blog
中国的博客时代,2006-2010. 机器人控制世界的时代虽然仍未到来,然而部分机器人如Google Trends已经可以做到这些无伤大雅的数据分析了. 感慨的话不再多说,知者自知,不知者无所谓. 总结一下发现的几个标志着博客时代尾声的点,可能片面些,仅供路过. 在博客时代,博客圈曾盛行一些传播游戏或立场之争.