分库分表的设计思路让大系统变简单

标签: 设计 系统 | 发表时间:2012-01-14 22:53 | 作者:fjwuyongzhi
出处:http://blog.csdn.net
 以铁路的售票系统来说明分库分表对架构的影响。

 

 一、问题:铁路的售票系统的数据量是海量吗?
 
  不是。因为数据量不大,真不大。

  每一个车次与车次间是独立的,每车次不超过2000张票,一天发车不超过50万车次;
 以预售期15天来讲,15*0.1亿张不超过1.5亿笔的热线数据,称不上海量数据的。
 再加上可以按线路分库,更是不到千万级的单表容量。已经发车完成的进入归档分析。
 即数据库按路线使用不同的服务器,不同的车次放在不同的表中。并发量锁真不大。

 当然,如果不分库分表,再加上不归档处理,铁路的售票系统的数据量看起来是海量的;
关键是这海量的数据没有意义。


二、如何分库分表?

 2.1 分库,考虑数据间没有直接关系和服务器如何部署

  铁路的售票系统为例来说,按路线分库,再按车次分表是合理的。
  设路线有1万条,按每1000条需要两台服务器(一台热机沉余),不到20台服务器
  如果使用SAN存储,则使用SAN作为存储,本机作为热机沉余,只需要10台。
  当然使用mySQL这种经济型数据库,服务器需要更多来防灾;
  即可以采用双写或多写的方式来保证数据的绝对安全。

 2.2分表,考虑数据间不存在重叠,即数据满足二分原则

  铁路的售票系统的任意两个车次是没有关系的,所以可以分表。
  电信的某个用户的通话和其它用户的通话记录,也是没有关系,所以可以分表处理
  (实际上电信的系统,分库分表后也是不大的,难在后台的计费、结算等规则)

 

三、数据库访问接口

 

  1. 元数据:如何识别到当前要处理的数量在哪张表?

    铁路的售票系统会有一个车次管理系统,例2012年2月12日 D3206 车次,
    按预先设计的在哪台服务器的哪个库,建哪个表。

  2.建立元数据的规则:即具体如何分库分表的规则

    这个就是数据库的访问接口。

  3.数据库访问接口的透明程度

  即哪个层知道哪些元数据信息。
 例,是否让窗口售票的客户端来解析元数据的规则然后缓存,还是通过中间件来解析缓存的

 具体各层使用怎样透明程度,和业务性质、节点和数据中心的拓扑等有关。

 

四、历史数据归档与分析

  1.使用分库分表后,数据需要归档,分析处理的程序变得复杂,但使 联机交易变得简单
  2.分析:要注意是针对热线数据分析、归档数据分析、混合分析有关,
   通过分库分表和归档,更方便使用分布式的统计方案。

  具体可以参考,淘宝的开放平台架构师写的文章:

   Beatles小记-分布式数据流分析框架(一)     http://www.blogjava.net/cenwenchu/archive/2011/12/07/365776.html

 

 

 结论:分库分表跟不分库分表,整个架构是完全不一样的。

   像铁票的售票系统、淘宝、电信、银行等,绝对要采用分库分表的数据存储方案,

   来解决数据量的增长而不影响性能的问题。

   像淘宝等互联网应用还要解决带宽即CDN问题。

 

供大家一起讨论、分享经验。

 

作者:fjwuyongzhi 发表于2012-1-14 22:53:36 原文链接
阅读:16 评论:0 查看评论

相关 [设计 系统] 推荐:

评价系统设计篇

- - 互联网 - ITeye博客
评论系统大家都见得非常多了,大到京东、淘宝、亚马逊,小到个人网站、博客都有评论系统,小型网站采用传统PHP+Mysql方式就能很快将系统搭建起来,同时采用单库单表方式就能轻松解决数据存储、数据查询等问题,但是对于上述中大型网站而言,已经远远不能支撑系统正常运行了. 接下来将从系统架构、数据存储、高性能服务等方面来揭示京东的评价系统在面对海量数据、海量请求的情况是如何处理的.

思考系统API设计的问题

- edware_love - C++博客-首页原创精华区
最近正好在思考系统API设计中考量的一些问题,. 我现在的理解是这样的,假设有巨大的真实内存. windows首先将高2G的内存自己占了,用作各种内核对象. 这2G内存共享给每个进程,但进程不能直接访问,只能通过windows给定的函数访问. : 然后每个进程都给他2G内存,进程如果创建自己的对象就放到自己那2G内存里面,如果要建立内核对象就放到共享的那高2G里面去.

系统设计中的简单法则

- - 酷勤网-挖经验 [expanded by feedex.net]
最近,包云岗在自己的 博客中总结了系统设计中的基本法则——简单之美,列举了不少经典观点和案例. 他首先总结了麻省理工方法(MIT Approach)和新泽西方法(New Jersey Approach)的异同:. 简单性:两种方法都强调设计必须简单,这既是对实现的要求,也是对接口的要求. 但是,MIT方法认为接口的简单要比实现的简单更加重要,而NJ方法认为实现的简单要比接口的简单更加重要.

财务系统设计的思考

- - 行业应用 - ITeye博客
说到财务系统的设计,就不由得联想到了目前很流行的一个职业“互联网产品经理”,他们的设计着眼于用户体验,创造出新的功能,改善着上亿网民的生活,比如扫一扫,摇一摇等. 财务系统不同于互联网的产品,它的复杂性对于没有深入了解它的人来说,是不太能想象出来的. 互联网的功能开发,讲究的是时效,从一个点子,到产品发布可能只用一周的时间,然后如果市场冷淡,可能第三周就下线了.

12306订票系统设计关键点

- - 互联网旁观者
12306全国火车票网上售票网站的情况大家都见到了,如果让你来设计该订票网站,你会如何设计才能应对如此大规模以及高并发的情况呢. 以下是百度前技术总监邵辉给出的设计:. 列车在线订票系统的业务逻辑比较简单,不用多说. 可能的瓶颈有两个,一个是车次和剩余票量的查询,一个是下单. 在设计软件架构之前,需要先研究产品需求、软硬件条件、网络环境以及关联系统的接口,但这些资料无从获得,所以只能做几点分析和假设,做为设计的前提条件.

网购秒杀系统架构设计

- - 企业架构 - ITeye博客
秒杀活动只是网站营销的一个附加活动,这个活动具有时间短,并发访问量大的特点,如果和网站原有应用部署在一起,必须会对现有业务造成冲击,稍有不慎可能导致整个网站瘫痪. 用户在秒杀开始前,通过不停刷新浏览器页面以保证不会错过秒杀,这些请求如果按照一般的网站应用架构,访问应用服务器、连接数据库,会对应用服务器和数据库服务器造成极大的负载压力.

秒杀系统设计的知识点

- - 互联网 - ITeye博客
A, 高并发,cache,锁机制 . B, 基于缓存架构redis,Memcached的先进先出队列. C, 稍微大一点的秒杀,肯定是分布式的集群的,并发来自于多个节点的JVM,synchronized所有在JVM上加锁是不行了. F, 如何防止用户来刷, 黑名单. G, 利用memcached的带原子性特性的操作做并发控制. .

O2O供应链系统架构设计

- - 美团技术团队
本文是美团技术沙龙第一期, O2O技术架构与实践上的分享内容. 请在微信搜索“美团技术团队”关注我们的公众账号,了解更多活动信息. 英国知名供应链专家Martin Christopher曾经说过一句非常深刻的话:“21世纪的竞争不是企业和企业之间的竞争,而是供应链和供应链之间的竞争. 在风云变幻、寡头纷争的O2O战场,美团屡出重拳并步步为营,战绩不俗.

(转)面向鲁棒的系统设计

- - jackyrong
本来打算叫做面向异常的编程的,后来觉得可能多的是系统健壮性方面,于是改名面向鲁棒的系统设计,所谓鲁棒,鲁棒是Robust的音译,也就是健壮和强壮的意思. 它是在异常和危险情况下系统生存的关键. 平时在做业务系统的时候,尤其是最近一年多接触的超复杂系统,发现处理线上问题所占的时间越来越多,总结发现,其实这些问题大都是之前欠下的债,至于为啥欠债,大多数情况下迫于项目或者日常的时间压力,很多设计从简,业务流程考虑主流程和分支流程,异常流程关注的少,不管三七二十一,功能先上线再说,如此便导致了恶性循环.

秒杀系统设计详解

- - 企业架构 - ITeye博客
高并发系统的设计及秒杀实践 - (秒杀队列、分库存). 秒杀场景一般会在电商网站举行一些活动或者节假日在12306网站上抢票时遇到. 对于电商网站中一些稀缺或者特价商品,电商网站一般会在约定时间点对其进行限量销售,因为这些商品的特殊性,会吸引大量用户前来抢购,并且会在约定的时间点同时在秒杀页面进行抢购.