证券创新之翼——阿里金融云
云计算被视为继大型计算机、个人计算机、互联网之后的第4次IT产业革命,顺应了当前各行业整合计算资源和服务能力的要求,成为引领当今世界信息技术变革的主力军。越来越多的金融企业认识到只有与云计算结合,才能更好地支持业务发展和创新。本文将结合阿里金融云的特性,讲述券商IT系统上云的最佳实战经验。
阿里金融云于2013年底正式上线,主要面向银行、证券、基金、保险和信托等金融企业。不到一年时间,已经有200多家金融机构的IT系统全部或部分运行于金融云上。简单来说,金融云有以下特点。
- 安全合规。通过了国际、国内多项权威机构的专业认证,符合人民银行和银监会的IT建设标准,例如物理隔离、生物识别、电力、制冷、监控、安保等。
- 高可用和安全性。提供更高的SLA和安全防护能力,例如支持两地三中心架构、ECS单台可用率99.95%、RDS实例可用率99.97%、更强的安全和防护更高的防攻击能力等。
- 提供专线/VPN免费接入、堡垒机服务、特殊设备托管等增值服务,并计划推出金融中间件服务和更多数据服务等。
券商IT系统上云分析
证券行业IT系统分为三大类:客户端(炒股软件、网站等)、券商系统和交易所系统。投资者通常使用客户端委托下单,把指令下发券商系统(主要是经纪业务),最后提交到交易所完成撮合成交。首先,我们简单介绍一下券商IT系统。
券商IT系统
传统的券商IT系统分为经纪业务、风控管理、营销服务和资产管理等四大类,其中每一类又由若干个业务系统组成。以经纪业务为例,它主要由经纪业务运营支撑软件系统及相关衍生软件产品组成,包括客户交易、账户存管、清算结算等业务软件系统。如图1所示,经纪业务结构规划中,整体上分为前台系统、中台系统和后台系统。
图1 经纪业务系统整体架构
前台是面向使用者的渠道服务,使投资者与操作人员能通过各种不同的方式接入系统。与此相对应的,依据不同的渠道方式,提供不同的产品供投资者与操作人员使用。如专用客户端平台、网上交易平台、CALL CENTER平台、移动终端平台以及各门户网站的Web应用等。
在中台业务中,针对实时交易业务提供集中交易系统,实现投资者的交易服务功能;面向客户在线支持提供客户服务系统;面向财经资讯提供资讯管理服务;面向投资管理提供投资管理系统;面向清算结算业务提供统一的清算结算服务等。
对于后台经营分析,主要基于统一数据源的客户关系管理、客户风险管理、系统的运维监控以及决策分析、OA应用等各类管理性的业务应用,实现针对非实时管理业务应用的分离处理。多数业务系统,从前到后通常分为客户端、负载均衡、Web服务器和中间件、数据库等几个层次。券商系统也是如此,除了要满足高并发、稳定性等设计标准外,还对高可用、网络时延、数据安全有更高要求。另外,由于创新业务越来越多,竞争加剧,券商行业对成本也变得比较敏感。下面从以下几个方面做简要分析。
高可用
如果券商关键系统停机10分钟,则属于特别严重的事故,会造成非常巨大直接和间接的经济损失,甚至会受到证监会的处罚,所以高业务连续性是基本要求。业务连续性是个非常大的话题,涉及到管理制度、技术方案和物理设施等多个层次,并且要确保这些关键职能在任何环境下都能持续发挥作用。
混业经营的大环境下,各种创新业务是券商的竞争力所在。在业务、上线时间和成本等多重压力下,系统有时没有容灾备份机制,甚至存在很多单点问题。
以账户管理系统为例,传统方案是在自建机房搭建三/多层架构,如果要考虑容灾,甚至异地容灾,整个系统会变得非常复杂。
为此,阿里金融云提供了非常简洁的高可用解决方案,产品全部是同城容灾的,例如SLB(Server Load Balancer,负载均衡)服务采用同城双活机制,在发生机房级别的故障后,服务秒级切换,且对外服务的IP地址不会发生变化,确保最终用户基本无感知;RDS(Relational Database Service,关系型数据库服务)能够做到同城容灾,数据会同时写到两个机房的服务器上,当发生机房级别的故障后,秒级切换到备库,数据无丢失,只要上层业务系统能够做到出错重试,服务很快就能自动恢复,所以通常监控不到业务系统的对外服务异常。
如果选购ECS(Elastic Compute Service,云服务器)时,将它们均分到不同的可用区(机房),那么在某台ECS或某个可用区的ECS故障后,SLB会监控到异常,将流量切换到健康的ECS上;如果ECS出现故障恢复,则SLB会把部分流量切换回来。如此,就可以在金融云上搭建一个同城灾备的高可用系统。
由上可知,这个系统需要IT人员做的只是购买ECS时将其均分到不同的可用区,再部署相应的业务系统即可(还需要配置云盾和云监控)。另外,可选两地三中心架构,从而做到数据级或应用级的容灾。账户管理系统在云上的架构如图2所示。
图2 账户管理系统在云上的架构
- 图2分为两部分:左边是杭州地域,右边是青岛地域。其中杭州地域分为两个机房DC1和DC2。
- 金融云中的SLB、OSS和RDS是同城灾备架构,也就是发生机房级别的故障,对用户来说透明无感知;其中RDS是同城双写,每个机房两份数据,能够保证无数据丢失,即同城RPO为0。
- 购买ECS时,均分到两个可用区(机房)。
- 配置合适的云盾和云监控策略,实时监控各种事件的发生,例如服务可用状态或服务器性能压力等。
- 异地灾备系统的架构与之类似,开通灾备服务后,金融云会自动进行数据同步。如果需要业务级灾备,则需要搭建与主站类似的系统架构。如果发生地域级的灾难,可通过DNS切换到异地备份系统。
因为运维ECS必须通过VPN拨入,所以一般情况下,购买ECS时除了指定可用区外,还要把公网带宽设置为0(纯内网环境),如图3所示。通过以上可知,金融云能够满足5级灾备标准,整个系统的年度可用率在99.96%以上,且同城RPO是0,异地RPO为数分钟,满足券商系统的对业务连续性要求,甚至超出了现有系统的建设标准。
图3 将公网带宽设置为0
网络时延
前台渠道服务,有行情、网上交易、门户网站、网上开户等系统,访问终端有PC、手机等各种智能移动设备。证券期货类系统要求网络时延越低越好,处理时延也是衡量业务系统的重要指标,是券商的竞争力的重要方面。
针对行情系统来说,目前券商的做法是在全国不同地域的IDC机房里面搭建行情服务器,由客户端(炒股软件)手动或自动选择最快的站点。因为是十几个或几十个站点同时提供行情服务,且IDC机房通常只有一个或两个运营商线路接入。这种做法的用户体验不佳。
金融云很好地解决了这些问题,目前已有十余家券商将行情系统迁移到金融云。行情系统相对比较简单,传统架构可直接搬到云上:负载均衡(SLB)+若干台服务器(ECS);把行情通过专线拉到金融云,提供快速稳定的行情源服务,同时把券商以互联网链路做行情源作备份。行情系统的云上架构如图4所示。
图4 行情系统的云上架构
经过实践,我们发现只在云上部署一个(杭州)或两个站点(杭州和青岛),反而能得到比在当地站点更短的行情延迟,这主要得益于金融云直接使用阿里巴巴的优质基础网络,提供了多运营商BGP接入,包含电信、联通、移动、教育网、铁通等8个运营商。
针对以上方案,券商在多域多运营商线路的测试结果显示。
- 随着地域距离增大,网络时延会变长,但对总的行情时延的影响不明显;
- 不同运营商的环境下,行情延迟明显优于原券商系统;
- 如果使用专线行情源,行情时延明显优于原有方式;
- 如果使用备份行情源,行情时延与原有方式相当或稍快。
券商选择把前台渠道各服务系统(含行情系统)架设到金融云上,它为各种终端和运营商线路及各地投资者提供一致的快速访问体验。如果是网上开户等应用,需要和券商自己机房的CA系统、账户系统、CRM等系统进行交互,则需要与金融云建立专线链路。
数据安全
云计算的核心是安全,券商对数据安全尤为重视。阿里金融云从机房、基础硬件/软件、云计算分布式操作系统(飞天)、云产品等各个层面内置了非常多的防护和监控措施,并免费提供云盾和云监控给业务系统使用。以下从数据安全角度做一下简要描述。
- 金融云与通用云计算服务物理隔离,物理磁盘只有消磁后才能出机房。
- 互联网入口只能通过SLB的特定端口,券商IT运维只能先拨入VPN后,才能进行部署和升级等操作。
- 券商之间逻辑隔离,同时提供安全组(防火墙),可制定全面的访问规则。网络工程师可以划分出DMZ区、业务区、核心区等安全域。
- 云盾提供WAF、暴力破解、SQL注入等安全服务,同时提供全面的审计功能。
- 数据多副本备份和异地容灾等。
券商的安全体系是与金融云共同建立的,阿里云提供安全云平台和云盾等安全功能。券商更聚焦于业务系统的自身安全,像存储和网络链路的加密也是必须要做的。
成本投入
针对已经上云的券商来说,云计算提供了安全专业的服务,同时也带来了明显的成本优势。因为在云上不需要考虑机房选址,也不需要采购服务器、网络、安全设备等,节省了大量人力和直接成本。简要分析如下。
- 采购设备的直接成本投入折算成年度费用,在云上为原来的30%,或者更少;而且传统方案需要更大的初期投入。
- 证券期货行业的特点是有比较明显的峰谷现象。行情火爆时,交易量巨大,对IT系统的需求也更大;相反行情平淡时,IT系统又会有较大的浪费。同时,交易时间和非交易时间段对IT系统的压力也有明显波动。传统方案需要按照业务峰值进行系统建设,利用金融云的按需扩展和快速部署特性可以明显降低系统规模。
- 证券期货类系统网络流量的特点是交易时间又或者运营活动(例如网上开户或热销产品)期间流量巨大,而大部分时间网络又比较空闲。SLB可选按流量计费模式,能保证良好网络速度,同时成本是原来的20%甚至更少。
- 基础运维和部分安全运维由金融云提供,且不需维护十几个甚至几十个站点,明显降低了运维工作量,极大降低了工作强度。IT人员能将主要精力转移到体现券商核心竞争力的创新业务上。
- 降低创新项目风险。每个券商都有很多创新产品,而又不能准确预估这些产品对IT系统的需求量,甚至上线不久也有被取消的可能。在云上可以根据这些产品的市场表现动态伸缩资源,且不需巨额的初期投入。
推动创新
证券公司IT系统需要站在一个较高的角度进行科学有效的规划和整合。IT规划可以充分利用云计算的优势,提高IT能力和效率,优化系统和网络架构,以达到提高用户体验,同时减少设备、降低维护成本的基本要求,从而更进一步地支撑和推动互联网金融背景下的各种金融创新。
这是一个最坏的时代,市场竞争空前激烈,事关生死;同时这也是一个最好的时代,我们有了互联网,我们有了云计算,我们有了大数据,让原来不可能成为可能。