一例千万级pv高性能高并发网站架构[原创]

标签: Architecture | 发表时间:2011-12-18 04:25 | 作者:刘天斯 <liutiansi@gmail.com>
出处:http://blog.liuts.com/index.php
      受CU管理员的邀请参考“ 千万级pv高性能高并发网站架构与设计交流探讨帖”主题的交流,发表了一案例与大家分享。
      一个支撑千万级PV的网站是非常考验一个架构是否成熟、健壮(本文不涉及软件架构的层面,有兴趣也可以讨论)。现抛出一个系统层面的架构,不保证是最优的方案,但也许适合你。理由是再优秀的架构都不具备通用性,需要根据每种应用特点针对性来设计。希望起到抛砖引玉的作用,大家多多参与,发表意见。

(点击放大)

架构说明:
1)架构中直接引入软件名称的模块,是个人推荐使用的,如Haproxy、Hadoop等;
2)关于全局负载均衡,看成本投入情况,可以使用商业的产品,如F5-GTM,开源方案便是自搭智能DNS;
3)本地负载均衡方案,可以考虑F5-LTM或成熟的开源解决方案LVS;
4)代理层为什么推荐大家使用Haproxy?Haproxy是一个非常优秀的反向代理软件,十分高效、稳定。国内top 10的互联网公司都有在使用;
5)缓存层可以使用Squid或Varnish,个人更倾向Varnish。配置灵活、运行稳定,提供非常便利的管理接口。为啥在缓存层前面加一层代理?优点非常多,列举如下:
  • 根据应用配置URI路由规则,集中热点来提高后端缓存的命中率;
  • 轻松划分网站频道、版块,更好对应用进步组织、规划;
  • 对URI进行一般性安全过滤,抵御注入攻击;
  • 弹性调配硬件资源,应对突发事件产生大流量;
  • 可回收宝贵的公网IP资源;

6)应用层开源技术方案非常多且成熟,在此不详细描述;
7)数据库层主流开源解决方案Mysql是首选,主从复制(一主对多从)是目前比较靠谱的模式;
8)关于Nosql,应用场景不多说,可参考“ 给部门做的Mongodb技术交流PPT”文章,redis、memcached等作为热点数据存储、数据库缓存都非常理想;
9)内网DNS扮演的角色非常重要,一定要消灭code中出现的内网IP地址,很大程度减少因IP变更、服务器故障而修改源码的情况,同时也便于维护;
10)内网LB适用在内部WEB接口、多台数据库Slave、多台Nosql Slave、公共服务等应用的负载均衡,可以使用LVS、Haproxy来实现,可用性要求不高的应用可行直接使用Localhost DNS轮询;
11)hadoop适合海量数据的存储与处理,如做网站日志分析、用户数据挖掘等;
12)管理集群,平台的核心,运维的阵地;
      以上粗略介绍了架构的几个组成部分,如大家有对哪块有疑问或感兴趣都可以展开来讨论,也可以通过weibo与我交流: http://t.qq.com/yorkoliu
Tags - ,

相关 [千万 pv 性能] 推荐:

一例千万级pv高性能高并发网站架构[原创]

- - 运维进行时
      受CU管理员的邀请参考“ 千万级pv高性能高并发网站架构与设计交流探讨帖”主题的交流,发表了一案例与大家分享.       一个支撑千万级PV的网站是非常考验一个架构是否成熟、健壮(本文不涉及软件架构的层面,有兴趣也可以讨论). 现抛出一个系统层面的架构,不保证是最优的方案,但也许适合你.

千万级pv高性能高并发网站架构与设计(转)

- - BlogJava-
高并发访问的核心原则其实就一句话“把所有的用户访问请求都尽量往前推”. 如果把来访用户比作来犯的"敌人",我们一定要把他们挡在800里地以外,即不能让他们的请求一下打到我们的指挥部(指挥部就是数据库及分布式存储). 如:能缓存在用户电脑本地的,就不要让他去访问CDN. 能缓存CDN服务器上的,就不要让CDN去访问源(静态服务器)了.

如何打造一个日均PV千万级别的大型系统?

- - 运维派
周金桥,具有丰富的系统规划、设计、开发、运维及团队组织管理工作经验,熟悉.Net、J2EE技术架构及应用. 微软2008-2012五届最有价值专家(MVP),2009年单独著有《ASP.NET夜话》一书,2010年与人合著《程序员的成长之路》. 本文我选定的方向是如何开发一个大型系统,在这里我对大型系统的定义为日均PV在千万级以上,而京东和淘宝这类则属于巨型系统了.

根据PV计算带宽及根据PV算并发

- - 企业架构 - ITeye博客
我们通常说的网站流量(traffic)就是指网站的访问量,是用来描述访问一个网站的用户数量以及用户所浏览的网页数量等指标,常用的统计指标包括网站的独立用户数量、总用户数量(含重复访问者)、网页浏览数量、每个用户的页面浏览数量、用户在网站的平均停留时间等. 网站访问量的衡量标准一个是IP,另一个是PV,常以日为标准,即日独立IP和PV来计算..

使用rrdtool统计网站PV和IP

- - Linux - 操作系统 - ITeye博客
现在网站服务器已经使用snmp进行监控,已经对CPU,内存,流量等进行了监控,但觉得还需要加一项监控,就是网站的PV和IP的监控,这样可以快速知道服务器负载上升是否是网站访问量增加的原因. 这几天初学 rrdtool,这个工具既能存储数据,又能画图,非常的方便. 下面是统计近一天的pv和ip图.

温故而知新「Fate/Zero」 PV+CM大回顾

- Adam - 和邪社
凌晨备受关注的10月新番《Fate/Zero》就要在nico上做8字幕全球放送了,在正是面相大家前. 大家再来回顾一下此前Fate/Zero为了宣传造势而制作的两段PV和连续7弹的CM吧.

Digg起死回生?Facebook添加其应用 PV一月增35%

- - TechWeb 今日焦点 RSS阅读
  Digg的网页浏览量在一月份增加35%,创下该公司自2010年10月份以来最大的流量记录.   网易科技讯 2月25日消息,据国外媒体报道,由于Facebook新添加Digg应用程序,Digg网站表现出新的发展活力.   报道称,软件工程师威尔·拉森尔(Will Larson)在一篇博文中表示,Digg的网页浏览量在一月份增加35%,创下该公司自2010年10月份以来最大的流量记录.

Reddit如何可以承受每月2.7亿PV

- - 博客园_新闻
英文原文: 7 Lessons Learned While Building Reddit To 270 Million Page Views A Month.    这篇文章有点老,是 2010 年的. Reddit 在美国年轻人中很受欢迎,感觉 黃易山做 CEO 后更蒸蒸日上了. 相信这 4 年间,他们面临的 scalability 的问题更严峻,一些架构可能都推倒重来了.

抛弃 PV,网站广告也按时间收费?

- - 疯狂简报·MADBRIEF
“同样一个品牌,曝光 1 秒和 5 秒有差别么. 这是《金融时报》(Financial Times)数字广告总监 Jon Slade 近日提出的一个看似简单问题,他无非是想证明注意力时间对于广告的重要性. 但在在线媒体行业,衡量广告投放效果的却是另外一套指标——PV 和 UV. 在广告主眼中,页面浏览量越大,意味着广告到达受众人数越广,投放效果也就越好.

从100PV到1亿级PV网站架构演变

- - 快课网
一个网站就像一个人,存在一个从小到大的过程. 养一个网站和养一个人一样,不同时期需要不同的方法,不同的方法下有共同的原则. 本文结合我自已14年网站人的经历记录一些架构演变中的体会. 1999年,我作了一个个人主页,在学校内的虚拟空间,参加了一次主页大赛,几个DREAMWEAVER的页面,几个TABLE作布局,一个DB连接,几行PHP的代码嵌入在HTML中,再用FTP传到服务器上就可以给别人展示一个网站.