有故障,毋宁死

标签: 系统架构 | 发表时间:2012-01-14 17:01 | 作者:Tim
出处:http://www.blogread.cn/it/

标签:   故障

―谈系统故障及软件质量

    如果你是一个7×24小时在线服务的整体(或模块)的技术或系统负责人,你的大部分生活会如游走钢丝。

    程序会出bug、资源会出故障、发布会操作错误、测试会有疏漏、安全会出漏洞、网络会有波动、服务器会突然坏掉。当产品的需求日益增多,判随工程师团队会日益增大,一个软件项目或功能从开发到上线的完成,都不可能由一人或者几个核心工程师去做,需要由不同背景、不同能力及做事风格的的开发、测试、工程师配合完成。当任一环节问题(包括有不少并非你直接可控范围之内的问题)未及时发现并带到线上之后,最终的责任会落在你的肩上。每当问题一出,你会感受到各方面的压力,有技术的缺陷、工作的失职、流程及规范执行方面的欠缺的问题;同时也会来自组织内外对你能力及人品等方面的质疑的声音。当发生问题后,你可能会独处一隅,沉浸在未能把事情做好的懊悔中。

    尽管平时付出了很多辛勤与努力,在业界普遍处于KPI焦虑的环境中,技术作为底层支撑部门,出现的各种问题通常是显而易见的,不足的问题通常会被放大。

    因此,你经常面临的艰难的选择是, quality, or death.

    传统工作生产中,有标准化的流程及规范来提高质量、降低故障。比如六西格玛(Six Sigma)可以降低产品瑕疵率。他们有成熟的规范与制度,有熟悉制度执行的专业人员,有提供咨询服务且具有丰富经验执行的咨询公司,企业员工及业务负责人只需要按步就班,就可以把问题做得相对到位。但在互联网在线服务这种不规范的软件系统中,有没有类似的标准化流程来指导生产呢?大部分团队需要从头到尾摸索一遍,在交足学费后才能得到一套并不完善的流程及制度?

发布前流程

    设计及架构,是否在开发的特性进行设计上的tradeoff?

     风险及依赖,开发计划中充分考虑风险及项目依赖因素?

     代码是否经过足够的review?

     上线计划及风险因素是否考虑详尽?比如是否需要灰度发布?上线后检查及测试措施是否到位?是否有回滚方案,回滚是否会产生脏数据?

当故障发生时

    是否有充足渠道及时发现问题?以免小问题变成大问题?

     收到问题后是否有合适方式(如日志及工具)快速定位并确认问题?有时候一些用户反馈的些问题并不好测试及重现。

处理问题

    是否有现成的问题处理预案?

     对于新功能是否有回滚处理方法,回滚后是否存在脏数据需要修复?

总结问题

    问题的根源是什么?在技术上、流程上、风险防范上各有什么可以马上执行的行动计划?

非技术因素

    在很多企业中,容易把软件质量上发生的各种问题归结到单一的技术因素。但是,如果没有非技术体系的支持,一个团队不可能做到完善的高质量。

    研发流程及质量改进在你企业规划中的权重是怎样?年度规划中除了业务目标、竞争环境、市场份额、产品策略之外,研发体系改进是否有一席之地?

    在功能需求及产品设计阶段,是否充分考虑了技术风险及人力资源因素?是否会突然启动当前团队并不能支撑的项目?

    在开发阶段,开发计划是否符合软件开发规律?开发计划是根据项目压力制定,还是从定好的交付日期来倒推开发时间表?

    安全及优化,是否有专门的人力及团队?开发工程师需要面临日常的开发任务,突然被用户发现之前开发的模块存在安全问题,修复完之后发现又带出了另外一个bug?

    国内大部分产品面临市场及竞争对手的压力非常大,在相对恶劣的环境下,研发技术建设大多只考虑短期收益。如果期望研发体系做到零故障或者可控的故障(比如six sigma中的99.99966%),需要长时间的体系建设与积累,包括整个企业的工作流程,同时也需要在技术基础研发上投入更多的精力。

您可能还对下面的文章感兴趣:

  1. Twitter“鲸鱼”故障技术剖析 [2010-03-09 09:12:37]


相关 [系统架构 ] 推荐:

leveldb性能分析和表现

- mbcw - IT技术博客大学习
    Leveldb是一个google实现的非常高效的kv数据库,目前的版本1.2能够支持billion级别的数据量了. 在这个数量级别下还有着非常高的性能,主要归功于它的良好的设计.     那么数据库最怕的的随机IO他是如何解决的呢.     先说随机写,它的写都是先记录到日志文件去的,在日志文件满之前只是简单的更新memtable,那么就把随机写转化成了顺序写.

开源网站分析软件Piwik的数据库表结构

- Michael - IT技术博客大学习
标签:  Piwik  表结构.     Piwik是一套基于Php+MySQL技术构建,能够与Google Analytics相媲美的开源网站访问统计系统,前身是phpMyVisites. Piwik可以给你详细的统计信息,比如网页浏览人数, 访问最多的页面, 搜索引擎关键词等等,并且采用了大量的AJAX/Flash技术,使得在操作上更加便易.

一个DBA眼中的HBase

- - IT技术博客大学习
标签:   HBase.     Hadoop,HBase,NO-SQL是当今业界比较火的一些名词. 满互联网都是对它的他们的赞许,其实光芒的背后还有部分缺点. 本文只是我vogts的一些观点和想法.     HBase的优点:.     分布式,易扩展,高性价比,运维成本低都是它的优点. HBase可以支持海量数据,单张表的数据量不上T,都不好意思出来打招呼.

服务器性能指标:拨开服务器评测体系迷雾

- - inJava
用户总希望有一种简单、高效的度量标准,来量化评价服务器系统,以便作为选型的依据. 但实际上,服务器的系统性能很难用一两种指标来衡量. 包括 TPC、SPEC、SAP SD、Linpack和HPCC在内的众多服务器评测体系,从处理器性能、服务器系统性能、商业应用性能直到高性能计算机的性能,都给出了一个量化的评价指标.

初识PhoneGap

- - IT技术博客大学习
标签:   PhoneGap.      一、PhoneGap是什么.     PhoneGap是一个标准的开源框架,用PhoneGap开发移动应用是免费的,无论是商业或是开源;一个用基于HTML,CSS和JavaScript的,创建跨平台移动应用的 快速开发平台. 它使开发者能够利用iPhone、Android、Palm、Symbian、WP7、Bada和Blackberry智能手机的核心功能——包括地理定位,加速器,联系人,声音和振动等,此外PhoneGap拥有丰富的插件,可以以此扩展无限的功能.

数据库分散存储问题的解决

- - inJava
  目前主要分布存储的方式都是按照一定的方式进行切分,主要是垂直切分(纵向)和水平切分(横向)两种方式,当然,也有两种结合的方式,达到更到的切分粒度. 垂直切分(纵向)数据是数据库切分按照网站业务、产品进行切分,比如用户数据、博客文章数据、照片数据、标签数据、群组数据等等每个业务一个独立的数据库或者数据库 服务器.

用例建模指南

- - inJava
用例(Use Case)是一种描述系统需求的方法,使用用例的方法来描述系统需求的过程就是用例建模. 用例方法最早是由Iva Jackboson博士提出的,后来被综合到UML规范之中,成为一种标准化的需求表述体系. 用例的使用在RUP中被推崇备至,整个RUP流程都被称作是"用例驱动"(Use-Case Driven)的,各种类型的开发活动包括项目管理、分析设计、测试、实现等都是以系统用例为主要输入工件,用例模型奠定了整个系统软件开发的基础.

HTTP Server开发相关学习资料整理推介

- - IT技术博客大学习
标签:   HTTPServer.     本文整理了我在学习过程中接触到的一些与HTTP Server有关的资料、文章及书籍,在这里分享给大家,希望对大家有所帮助.     HTTP协议标准文档,所有从事HTTP相关开发的人员必备参考资料,建议仔细研读.     TCP协议标准文档.     CGI1.1协议标准文档,描述了Web Server与CGI Application通过CGI协议进行交互的所有细节.

Solr\Lucene优劣势分析

- - IT技术博客大学习
标签:   Lucene   Solr. 最早lucene2.4以及以前,追溯到2008年前后,lucene刚刚引起大家的关注,到后来Nutch.      、solr的出现,lucene变得更加热. Nutch、Solr的发展,极大推动了lucene的升级.      对于一些接触过搜索,使用过lucene、solr的人来说,一般都会感觉lucene、solr很牛逼.

Nginx+KV db进行AB灰度测试

- - IT技术博客大学习
周6参加华东运维大会,听了人家淘宝用nginx的一些场景,其中AB的灰度测试可能适用场景会比较普遍,当然大会上,并没有详细讨论实现. 大概需求是: 网站类业务在更新new feature时,并不想让全量用户看到,可以针对地区性用户开放此feature. 大概构思了一个方式,使用 nginx+redis/memcache+IP库实现,简单的流程图如下:.