大型门户网站架构分析

标签： 门户网站 架构分析 | 发表时间：2011-09-22 11:45 | 作者：蓝色的风

出处：http://blog.soso.com/qz.q?ie=utf-8&pid=s.idx&op=blog.blog&ty=blog&w=网站架构

　　 大型门户网站架构分析

　　千万人同时访问的网站，一般是有很多个数据库同时工作，说明白一点就是数据库集群和并发控制，这样的网站实时性也是相对的。这些网站都有一些共同的特点：数据量大，在线人数多，并发请求多，pageview高，响应速度快。总结了一下各个大网站的架构，主要提高效率及稳定性的几个地方包括：

　　1、程序

　　程序开发是一方面，系统架构设计（硬件+网络+软件）是另一方面。

　　软件架构方面，做网站首先需要很多web服务器存储静态资源，比如图片、视频、静态页等，千万不要把静态资源和应用服务器放在一起。

　　一个好的程序员写出来的程序会非常简洁、性能很好，一个初级程序员可能会犯很多低级错误，这也是影响网站性能的原因之一。

　　网站要做到效率高，不光是程序员的事情，数据库优化、程序优化这是必须的，在性能优化上要数据库和程序齐头并进！缓存也是两方面同时入手。第一，数据库缓存和数据库优化，这个由dba完成（而且这个有非常大的潜力可挖，只是由于我们都是程序员而忽略了他而已）。第二，程序上的优化，这个非常的有讲究，比如说重要一点就是要规范ＳＱＬ语句，少用in 多用or，多用preparestatement 存储过程，另外避免程序冗余如查找数据少用双重循环等。另外选用优秀的开源框架加以支持，我个人认为中后台的支持是最最重要的，可以选取spring＋ibatis。因为ibatis直接操作SQL并有缓存机制。spring的好处就不用我多说了，ＩＯＣ的机制可以避免new对象，这样也节省开销。据我分析，绝大部分的开销就是在NEW的时候和连接数据库时候产生的，请尽量避免。另外可以用一些内存测试工具来做一个demo说明hibernate和ibatis谁更快！前台你想用什么就用什么，struts,webwork都成，如果觉得自己挺牛X可以试试用tapestry。

　　用数据库也未必不能解决访问量巨大所带来的问题，作成静态文件硬盘的寻址时间也未必少于数据库的搜索时间，当然对资料的索引要下一翻工夫。我自己觉得门户往往也就是当天、热门的资料点击率较高，将其做缓存最多也不过1~2G的数据量吧，举个例子：

　　◎ 拿网易新闻来说http://news.163.com/07/0606/09/3GA0D10N00011229.html

　　格式化一下，方便理解：http://域名/年/月日/新闻所属分类/新闻ID.html

　　可以把当天发布的、热门的、浏览量大的作个缓存，用hashtable（key：年-月-日-分类-ID，value：新闻对象），静态将其放到内存（速度绝对快过硬盘寻址静态页面）。

　　通常是采用oracle存储过程＋2个weblogic，更新机制也几乎一样每签发一条新闻，就会生成静态页面，然后发往前端的web服务器，前端的web都是做负载均衡的。另外还有定时程序，每5-15分钟自动生成一次。在发布新闻的同时将数据缓存。当然缓存也不会越来越大，在个特定的时间段（如凌晨）删除过期的数据。做一个大的网站远没有想象中那么简单，服务器基本就要百十个的。

　　这样可以大大增加一台计算机的处理速度，如果一台机器处理不了，可以用httpserver集群来解决问题了。

　　2、网络

　　中国的网络分南电信和北网通，访问的ip就要区分南北进入不同的网络。

　　3、集群

　　通常会使用CDN与GSBL与DNS负载均衡技术，每个地区一组前台服务器群，比如新浪和搜狐，而网易，百度使用了DNS负载均衡技术，每个频道一组前台服务器；一搜使用了DNS负载技术，所有频道共用一组前台服务器集群。

　　网站使用基于Linux集群的负载均衡，失败恢复，包括应用服务器和数据库服务器，基于linux-ha的服务状态检测及高可用化。

　　应用服务器集群可以采用apache+tomcat集群和weblogic集群等；web服务器集群可以用反向代理，也可以用NAT的方式，或者多域名解析都可以；Squid也可以，方法很多，可以根据情况选择。

　　4、数据库

　　因为是千万人同时访问的网站，所以一般是有很多个数据库同时工作的，说明白一点就是数据库集群和并发控制，数据分布到地理位置不同的数据中心，以免发生断电事故。

　　主流的数据库有Sun的是MySQL和Oracle。

　　Oracle是一款优秀的、广泛采用的商业数据库管理软件。有很强大的功能和安全性，可以处理相对海量的数据。而MySQL是一款非常优秀的开源数据库管理软件，非常适合用多台PC Server组成多点的存储节点阵列(这里我所指的不是MySQL自身提供的集群功能)，每单位的数据存储成本也非常的低廉。用多台PC Server安装MySQL组成一个存储节点阵列，通过MySQL自身的Replication或者应用自身的处理，可以很好的保证容错(允许部分节点失效)，保证应用的健壮性和可靠性。可以这么说，在关系数据库管理系统的选择上，可以考虑应用本身的情况来决定。

　　MySQL数据库服务器的master-slave模式，利用数据库服务器在主从服务器间进行同步，应用只把数据写到主服务器，而读数据时则根据负载选择一台从服务器或者主服务器来读取，将数据按不同策略划分到不同的服务器（组）上，分散数据库压力。

　　另外还有一点的是，那些网站的静态化网页并不是真的，而是通过动态网页与静态网页网址交换所出现的假象，这可以用urlrewrite这样的开源网址映射器实现。这样的网站实时性也是相对的，因为在数据库复制数据的时候有一个过程，一般在技术上可以用到hibernate和ecache，但是如果要使网站工作地更好，可以使用EJB和websphere，weblogic这样大型的服务器来支持，并且要用oracle这样的大型数据库。

　　大型门户网站不建议使用Mysql数据库，除非你对Mysql数据的优化非常熟悉。Mysql数据库服务器的master-slave模式，利用数据库服务器在主从服务器间进行同步，应用只把数据写到主服务器，而读数据时则根据负载选择一台从服务器或者主服务器来读取，将数据按不同策略划分到不同的服务器（组）上，分散数据库压力。

　　大型网站要用oracle，数据方面操作尽量多用存储过程，绝对提升性能；同时要让DBA对数据库进行优化，优化后的数据库与没优化的有天壤之别；同时还可以扩展分布式数据库，以后这方面的研究会越来越多；

　　5、页面

　　从开始就考虑使用虚拟存储/簇文件系统。它能让你大量并行IO访问，而且不需要任何重组就能够增加所需要的磁盘。

　　页面数据调用更要认真设计，一些数据查询可以不通过数据库的方式，实时性要求不高的可以使用lucene来实现，即使有实时性的要求也可以用lucene（基于Java的全文索引/检索引擎），lucene+compass还是非常优秀的。

　　新闻类的网站可以用静态页存储，采用定时更新机制减轻服务器负担；首页每个小模块可以使用oscache缓存，这样不用每次都拉数据。

　　前端的基于静态页面缓存的web加速器，主要应用有squid等。squid 将大部分静态资源(图片，js，css等）缓存起来，直接返回给访问者，减少应用服务器的负载

　　网站的静态化网页并不是真的，而是通过动态网页与静态网页网址交换做出现的假象，这可以用urlrewrite这样的开源网址映射器实现，后缀名为htm或者html并不能说明程序生成了静态页面，可能是通过url重写来实现的，为的只不过是在搜索引擎中提升自己网站的覆盖面积罢了。

　　生成静态页面的服务器和www服务器是两组不同的服务器，页面生成后才会到www服务器，一部分数据库并不是关系数据库，这样更适合信息衍生，www、mail服务器、路由器多，主要用负载平衡解决访问瓶颈。

　　◎ 静态页面的缺点：

　　1) 增加了程序的复杂度

　　2) 不利于管理资料

　　3) 速度不是最快

　　4) 伤硬盘

　　6、缓存

　　从一开始就应该使用缓存，高速缓存是一个更好的地方存储临时数据，比如Web站点上跟踪一个特定用户的会话产生的临时文件，就不再需要记录到数据库里。

　　不能用lucene实现的可以用缓存，分布式缓存可以用memcached，如果有钱的话用10来台机器做缓存，> 10G的存储量相信存什么都够了；如果没钱的话可以在页面缓存和数据缓存上下功夫，多用OSCACHE和EHCACHE，SWARMCACHE也可以，不过据说同步性不是很好；

　　可以使用Memcache（分布式缓存）进行缓存，用大内存把这些不变的数据全都缓存起来，而当修改时就通知cache过期，memcache是LJ开发的一款分布式缓存产品，很多大型网站在应用，我们可以把Cache Server与App Server装在一起。因为Cache Server对CPU消耗不大，而有了Cache Server的支援，App Server对内存要求也不是太高，所以可以和平共处，更有效的利用资源。

　　单机内存缓存、文件缓存、数据库缓存等的策略都是可以很简单的实现的，例如可以使用微软的Caching Application Block，但如何在集群环境中使多个缓存、多层缓存并保存同步是个重大问题。大型网站一般都使用缓存服务器群，并使用多层缓存。业内最常用的有：

　　 Squid cache，Squid服务器群，把它作为web服务器端前置cache服务器缓存相关请求来提高web服务器速度。Squid将大部分静态资源(图片，js，css等）缓存起来，直接返回给访问者，减少应用服务器的负载

　　 memcache，memcache服务器群，一款分布式缓存产品，很多大型网站在应用; 它可以应对任意多个连接，使用非阻塞的网络IO。由于它的工作机制是在内存中开辟一块空间，然后建立一个HashTable，Memcached自管理这些HashTable。因为通常网站应用程序中最耗费时间的任务是数据在数据库的检索，而多个用户查询相同的SQL时，数据库压力会增大，而通过memcache的查询缓存命中，数据直接从memcache内存中取，每次缓存命中将替换到数据库服务器的一次往返，到达数据库服务器的请求更少，间接地提高了数据库服务器的性能，从而使应用程序运行得更快。它通过基于内存缓存对象来减少数据库查询的方式改善网站系统的反应，其最吸引人的一个特性就是支持分布式部署。有关memcache，以下文章可以参考：参考1，参考2，参考3官方站点。

　　 e-Accelerator，比较特殊，PHP的缓存和加速器。是一个免费开源的PHP加速、优化、编译和动态缓存的项目，它可以通过缓存PHP代码编译后的结果来提高PHP脚本的性能，使得一向很复杂和离我们很远的 PHP脚本编译问题完全得到解决。通过使用eAccelerator，可以优化你的PHP代码执行速度，降低服务器负载，可以提高PHP应用执行速度最高达10倍。

　　7、服务器操作系统与Web服务器

　　最底层首先是操作系统。好的操作系统能提高好的性能、稳定性和安全性，而这些对大型网站的性能、安全性和稳定性都是至关重要的。

　　淘宝网（阿里巴巴）: Linux操作系统 + Web 服务器: Apache新浪：FreeBSD + Web 服务器：ApacheYahoo：FreeBSD + Web 服务器：自己的Google: 部分Linux + Web 服务器：自己的百度：Linux + Web 服务器: Apache网易：Linux + Web 服务器: ApacheeBay: Windows Server 2003/8 (大量) + Web 服务器：Microsoft IISMySpace: Windows Server 2003/8 + Web 服务器：Microsoft IIS由此可见，开源操作系统做Web应用是首选已经是一个既定事实。在开源操作系统中Linux和FreeBSD差不太多，很难说哪个一定比另外一个要优秀很多、能够全面的超越对手，应该是各有所长。但熟悉Linux的技术人员更多些，利于系统管理、优化等，所以Linux使用更广泛。而Windows Server和IIS虽然有的网站使用，但不开源，而且需要购买微软的一系列应用产品，限制了其使用。总之，开源操作系统，尤其是Linux做Web应用是首选已经是一个既定事实。

　　常用的系统架构是:

　　Linux + Apache + PHP + MySQLLinux + Apache + Java (WebSphere) + OracleWindows Server 2003/2008 + IIS + C#/ASP.NET + 数据库以上一些不太成熟的想法，可以从某一个层次开始，逐步细化，把产品的性能指标提高上去。

　　以下内容为转载：浅析大型网站的架构

　　一个小型的网站，比如个人网站，可以使用最简单的html静态页面就实现了，配合一些图片达到美化效果，所有的页面均存放在一个目录下，这样的网站对系统架构、性能的要求都很简单，随着互联网业务的不断丰富，网站相关的技术经过这些年的发展，已经细分到很细的方方面面，尤其对于大型网站来说，所采用的技术更是涉及面非常广，从硬件到软件、编程语言、数据库、WebServer、防火墙等各个领域都有了很高的要求，已经不是原来简单的html静态网站所能比拟的。

　　大型网站，比如门户网站。在面对大量用户访问、高并发请求方面，基本的解决方案集中在这样几个环节：使用高性能的服务器、高性能的数据库、高效率的编程语言、还有高性能的Web容器。但是除了这几个方面，还没法根本解决大型网站面临的高负载和高并发问题。

　　上面提供的几个解决思路在一定程度上也意味着更大的投入，并且这样的解决思路具备瓶颈，没有很好的扩展性，下面我从低成本、高性能和高扩展性的角度来说说我的一些经验。

　　 1 、HTML 静态化

　　其实大家都知道，效率最高、消耗最小的就是纯静态化的html页面，所以我们尽可能使我们的网站上的页面采用静态页面来实现，这个最简单的方法其实也是最有效的方法。但是对于大量内容并且频繁更新的网站，我们无法全部手动去挨个实现，于是出现了我们常见的信息发布系统CMS，像我们常访问的各个门户站点的新闻频道，甚至他们的其他频道，都是通过信息发布系统来管理和实现的，信息发布系统可以实现最简单的信息录入自动生成静态页面，还能具备频道管理、权限管理、自动抓取等功能，对于一个大型网站来说，拥有一套高效、可管理的CMS是必不可少的。

　　除了门户和信息发布类型的网站，对于交互性要求很高的社区类型网站来说，尽可能的静态化也是提高性能的必要手段，将社区内的帖子、文章进行实时的静态化，有更新的时候再重新静态化也是大量使用的策略，像Mop的大杂烩就是使用了这样的策略，网易社区等也是如此。

　　同时，html静态化也是某些缓存策略使用的手段，对于系统中频繁使用数据库查询但是内容更新很小的应用，可以考虑使用html静态化来实现，比如论坛中论坛的公用设置信息，这些信息目前的主流论坛都可以进行后台管理并且存储再数据库中，这些信息其实大量被前台程序调用，但是更新频率很小，可以考虑将这部分内容进行后台更新的时候进行静态化，这样避免了大量的数据库访问请求。

　　 2 、图片服务器分离

　　大家知道，对于Web服务器来说，不管是Apache、IIS还是其他容器，图片是最消耗资源的，于是我们有必要将图片与页面进行分离，这是基本上大型网站都会采用的策略，他们都有独立的图片服务器，甚至很多台图片服务器。这样的架构可以降低提供页面访问请求的服务器系统压力，并且可以保证系统不会因为图片问题而崩溃，在应用服务器和图片服务器上，可以进行不同的配置优化，比如apache在配置ContentType的时候可以尽量少支持，尽可能少的LoadModule，保证更高的系统消耗和执行效率。

　　 3 、数据库集群和库表散列

　　大型网站都有复杂的应用，这些应用必须使用数据库，那么在面对大量访问的时候，数据库的瓶颈很快就能显现出来，这时一台数据库将很快无法满足应用，于是我们需要使用数据库集群或者库表散列。

　　在数据库集群方面，很多数据库都有自己的解决方案，Oracle、Sybase等都有很好的方案，常用的MySQL提供的Master/Slave也是类似的方案，您使用了什么样的DB，就参考相应的解决方案来实施即可。

　　上面提到的数据库集群由于在架构、成本、扩张性方面都会受到所采用DB类型的限制，于是我们需要从应用程序的角度来考虑改善系统架构，库表散列是常用并且最有效的解决方案。我们在应用程序中安装业务和应用或者功能模块将数据库进行分离，不同的模块对应不同的数据库或者表，再按照一定的策略对某个页面或者功能进行更小的数据库散列，比如用户表，按照用户ID进行表散列，这样就能够低成本的提升系统的性能并且有很好的扩展性。sohu的论坛就是采用了这样的架构，将论坛的用户、设置、帖子等信息进行数据库分离，然后对帖子、用户按照板块和ID进行散列数据库和表，最终可以在配置文件中进行简单的配置便能让系统随时增加一台低成本的数据库进来补充系统性能。

　　 4 、缓存

　　缓存一词搞技术的都接触过，很多地方用到缓存。网站架构和网站开发中的缓存也是非常重要。这里先讲述最基本的两种缓存。高级和分布式的缓存在后面讲述。

　　 架构方面的缓存，对Apache比较熟悉的人都能知道Apache提供了自己的缓存模块，也可以使用外加的Squid模块进行缓存，这两种方式均可以有效的提高Apache的访问响应能力。

　　 网站程序开发方面的缓存，Linux上提供的Memory Cache是常用的缓存接口，可以在web开发中使用，比如用Java开发的时候就可以调用MemoryCache对一些数据进行缓存和通讯共享，一些大型社区使用了这样的架构。另外，在使用web语言开发的时候，各种语言基本都有自己的缓存模块和方法，PHP有Pear的Cache模块，Java就更多了，.net不是很熟悉，相信也肯定有。

　　 5 、镜像

　　镜像是大型网站常采用的提高性能和数据安全性的方式，镜像的技术可以解决不同网络接入商和地域带来的用户访问速度差异，比如ChinaNet和EduNet之间的差异就促使了很多网站在教育网内搭建镜像站点，数据进行定时更新或者实时更新。在镜像的细节技术方面，这里不阐述太深，有很多专业的现成的解决架构和产品可选。也有廉价的通过软件实现的思路，比如Linux上的rsync等工具。

　　 6 、负载均衡

　　负载均衡将是大型网站解决高负荷访问和大量并发请求采用的终极解决办法。

　　负载均衡技术发展了多年，有很多专业的服务提供商和产品可以选择，我个人接触过一些解决方法，其中有两个架构可以给大家做参考。

　　 硬件四层交换

　　第四层交换使用第三层和第四层信息包的报头信息，根据应用区间识别业务流，将整个区间段的业务流分配到合适的应用服务器进行处理。　第四层交换功能就象是虚 IP，指向物理服务器。它传输的业务服从的协议多种多样，有HTTP、FTP、NFS、Telnet或其他协议。这些业务在物理服务器基础上，需要复杂的载量平衡算法。在IP世界，业务类型由终端TCP或UDP端口地址来决定，在第四层交换中的应用区间则由源端和终端IP地址、TCP和UDP端口共同决定。

　　在硬件四层交换产品领域，有一些知名的产品可以选择，比如Alteon、F5等，这些产品很昂贵，但是物有所值，能够提供非常优秀的性能和很灵活的管理能力。Yahoo中国当初接近2000台服务器使用了三四台Alteon就搞定了。

　　 软件四层交换

　　大家知道了硬件四层交换机的原理后，基于OSI模型来实现的软件四层交换也就应运而生，这样的解决方案实现的原理一致，不过性能稍差。但是满足一定量的压力还是游刃有余的，有人说软件实现方式其实更灵活，处理能力完全看你配置的熟悉能力。

　　软件四层交换我们可以使用Linux上常用的LVS来解决，LVS就是Linux Virtual Server，他提供了基于心跳线heartbeat的实时灾难应对解决方案，提高系统的鲁棒性，同时提供了灵活的虚拟VIP配置和管理功能，可以同时满足多种应用需求，这对于分布式的系统来说必不可少。

　　 一个典型的使用负载均衡的策略就是，在软件或者硬件四层交换的基础上搭建squid 集群，这种思路在很多大型网站包括搜索引擎上被采用，这样的架构低成本、高性能还有很强的扩张性，随时往架构里面增减节点都非常容易。这样的架构我准备空了专门详细整理一下和大家探讨。

　　对于大型网站来说，前面提到的每个方法可能都会被同时使用到，我这里介绍得比较浅显，具体实现过程中很多细节还需要大家慢慢熟悉和体会，有时一个很小的squid参数或者apache参数设置，对于系统性能的影响就会很大，希望大家一起讨论，达到抛砖引玉之效。

　　===================================为什么做镜像服务器？==================================

　　镜像服务器的主要目的就是为了服务器之间的负载均衡！

　　而在我们国家，镜像服务器更多用于解决南北线路不通（网通电信互联缓慢）的问题！

　　如何做镜像服务器？

　　 1．基于特定服务器软件的负载均衡

　　这种技术是利用网络协议的重定向功能来实现负载均衡的，例如在Http协议中支持定位指令，接收到这个指令的浏览器将自动重定向到该指令指明的另一个URL上。由于和执行服务请求相比，发送定位指令对Web服务器的负载要小得多，因此可以根据这个功能来设计一种负载均衡的服务器。一旦Web服务器认为自己的负载较大，它就不再直接发送回浏览器请求的网页，而是送回一个定位指令，让浏览器去服务器集群中的其他服务器上获得所需要的网页。在这种方式下，服务器本身必须支持这种功能，然而具体实现起来却有很多困难，例如一台服务器如何能保证它重定向过的服务器是比较空闲的，并且不会再次发送定位指令？定位指令和浏览器都没有这方面的支持能力，这样很容易在浏览器上形成一种死循环。因此这种方式实际应用当中并不多见，使用这种方式实现的服务器集群软件也较少。

　　 2．基于DNS的负载均衡

　　DNS负载均衡技术是最早的负载均衡解决方案，它是通过DNS服务中的随机名字解析来实现的，在DNS服务器中，可以为多个不同的地址配置同一个名字，而最终查询这个名字的客户机将在解析这个名字时得到其中的一个地址。因此，对于同一个名字，不同的客户机会得到不同的地址，它们也就访问不同地址上的Web服务器，从而达到负载均衡的目的。

　　这种技术的优点是，实现简单、实施容易、成本低、适用于大多数TCP/IP应用；但是，其缺点也非常明显，首先这种方案不是真正意义上的负载均衡，DNS服务器将Http请求平均地分配到后台的Web服务器上，而不考虑每个Web服务器当前的负载情况；如果后台的Web服务器的配置和处理能力不同，最慢的Web服务器将成为系统的瓶颈，处理能力强的服务器不能充分发挥作用；其次未考虑容错，如果后台的某台Web服务器出现故障，DNS服务器仍然会把DNS请求分配到这台故障服务器上，导致不能响应客户端。最后一点是致命的，有可能造成相当一部分客户不能享受Web服务，并且由于DNS缓存的原因，所造成的后果要持续相当长一段时间(一般DNS的刷新周期约为24小时)。所以在国外最新的建设中心Web站点方案中，已经很少采用这种方案了。

　　 3.基于四层交换技术的负载均衡

　　这种技术是在第四层交换机上设置Web服务的虚拟IP地址，这个虚拟IP地址是DNS服务器中解析到的Web服务器的IP地址，对客户端是可见的。当客户访问此Web应用时，客户端的Http请求会先被第四层交换机接收到，它将基于第四层交换技术实时检测后台Web服务器的负载，根据设定的算法进行快速交换。常见的算法有轮询、加权、最少连接、随机和响应时间等。

　　 4．基于七层交换技术的负载均衡

　　基于第七层交换的负载均衡技术主要用于实现Web应用的负载平衡和服务质量保证。它与第四层交换机比较起来有许多优势：第七层交换机不仅能检查TCP/IP数据包的TCP和UDP端口号，从而转发给后台的某台服务器来处理，而且能从会话层以上来分析Http请求的URL，根据URL的不同将不同的Http请求交给不同的服务器来处理(可以具体到某一类文件，直至某一个文件)，甚至同一个URL请求可以让多个服务器来响应以分担负载(当客户访问某一个URL，发起Http请求时，它实际上要与服务器建立多个会话连接，得到多个对象，例如.txt/.gif/.jpg文档，当这些对象都下载到本地后，才组成一个完整的页面)。

　　 5．站点镜像技术

　　以上几种负载均衡技术主要应用于一个站点内的服务器群，但是由于一个站点接入Internet的带宽是有限的，因此可以把负载均衡技术开始应用于不同的网络站点之间，这就是站点镜像技术，站点镜像技术实际上利用了DNS负载均衡技术。

　　===============================如何做镜像服务器--相关问题==================================

　　问题1：因为现在电信和网通的原因，很多网通的朋友总是反应速度慢，郁闷啊，我看到有的站可以自行选择是网通还是电信的，不知道，这个功能是怎么是实现的？

　　答案：

　　[html]

　　[/html]

　　然后在你每个空间的根目录放 1个较大图片 1.gif (最好 30 KB左右)

　　问题2：分别有网通、电信服务器，想两个服务器内都放网站整站程序，我添加文件的时候是在电信网站上添加，想让网通网站上也自动同步与电信，我该怎么做啊

　　答案：

　　1。介绍

　　　　现在的网站随着访问量的增加，单一服务器无法承担巨大的访问量，有没有什么方便快捷的方式解决这个问题呢，答案是”有”!

　　比如建立服务器群，进行均衡负载。但是如果要解决像电信网通这样的互访问题(中国网民的悲哀)，这个解决办法就无能为力了!

　　　　要解决这个问题最方便快捷的方式就是建立镜像网站!由访问者自己选择适合自己网络的速度最快的网站!这样即可以解决线路问题，又可以解决访问量问题!

　　2。网站同步的数据分类

　　　　网站数据基本分为两类:

　　　　一类是文件，比如HTML，ASP，PHP等网页文件，或者RAR，ZIP，RM，AVI等可下载文件!

　　　　要实现他们的同步很简单，用FTP同步软件就可以了!至于哪几个我会在后面做详细介绍。

　　　　一类是数据库数据文件，比如MySQL，SQL Server等等!

　　　　数据库同步的方法也很多，最简单的办法只是将数据库目录同步一下就OK了!

　　　　在后面我也会做详细讲解!

　　3。网站文件的同步

　　　　在这里用到的主要工具就是FTP，网站文件同步分两种情况，一种是本地到远程，一种是远程到远程(FXP)!第一种不用说了，第二种远程到远程即FXP，支持它的软件也很多，但是真正适合多网站同步镜像的却不多!

　　下面我介绍几个我认为不错的软件!

　　　　下面我介绍几个我认为不错的软件!

　　　　1.首先我要推荐的是国产的FTP软件”网络传神”，功能非常强大，特别是在网站的同步镜像方面，可惜的是，这款非常经典的软件已经不再更新了，最后更新时间是2003年3月，最后一个版本是3。12!虽然如此还是非常好用的!下面是一段官方的简介:

　　　　网络传神完全吸收了Cuteftp和UpdataNow的全部功能，并且增加了其他软件没有的多项功能：支持网站互传；支持网站同步(UPDATA NOW)；支持后台上传(多线程上传多个文件)；可同时打开多个站点；多站点计划上传功能，支持镜像站点；支持宏操作支持计划操作；支持文件高级比较上传；支持目录隐藏过滤（为用ForntPage作主页的朋友带来福音）；服务器自动识别功能；资源管理器浏览方式；可以自定义命令；支持RFC959标准具有更好的稳定性；完备的信息返回机制及错误监控机制完整的中文帮助。

　　　　2.第二款是由ReGet同一开发公司制作的专用于网站同步的软件”WebSynchronizer”，用这款软件，你才会体验到网站同步的方便快捷，简单容易。最新版本是1。3。62，网上能找到XX的最后版本是1。1版!下面是一段简介:

　　　　档案同步化工具 - WebSynchronizer，由知名续传软件 ReGet 之软件出版公司所推出，是网站同步化、档案镜像、档案备份的绝佳工具，可以执行下列主要工作：1) 本机资料夹及远程资料夹的同步化；2) 两台远程计算机中的资料夹同步化；3) 两个本机资料之同步化。

　　　　3.其他还有一些软件如同步快梭(AutoSyncFTP)，也能实现简单的网站同步，不过，这款软件非常不稳定，而且2001年就已经停止开发。所以，不用考虑了!还有上次有朋友提到的SiteMirro，由于网上找不到可以用的版本，所以没有办法测试 !

-----------------------------------------------------------------
以上正文预览由 SOSO博客提供，原文地址： http://user.qzone.qq.com/44505083/blog/1316663156

大型门户网站架构分析

- - 网站架构_搜搜博客搜索

　　大型门户网站架构分析. 　　千万人同时访问的网站，一般是有很多个数据库同时工作，说明白一点就是数据库集群和并发控制，这样的网站实时性也是相对的. 这些网站都有一些共同的特点：数据量大，在线人数多，并发请求多，pageview高，响应速度快. 总结了一下各个大网站的架构，主要提高效率及稳定性的几个地方包括：.

GFS架构分析

- zou - NOSQL Notes

Google文件系统（Google File System，GFS）是构建在廉价的服务器之上的大型分布式系统. 它将服务器故障视为正常现象，通过软件的方式自动容错，在保证系统可靠性和可用性的同时，大大减少了系统的成本. GFS是Google云存储的基石，其它存储系统，如Google Bigtable，Google Megastore，Google Percolator均直接或者间接地构建在GFS之上.

Instagram 架构分析笔记

- Yousri - DBA Notes

Instagram 团队上个月才迎来第 7 名员工，是的，7个人的团队. 作为 iPhone 上最火爆的图片类工具，instagram 用户数量已经超过 1400 万，图片数量超过 1.5 亿张. 不得不说，这真他妈是个业界奇迹. 几天前，只有三个人的 Instagram 工程师团队发布了一篇文章：What Powers Instagram: Hundreds of Instances, Dozens of Technologies，披露了 Instagram 架构的一些信息，足够勾起大多数人的好奇心.

Android 系统架构分析

- - CSDN博客移动开发推荐文章

Android：开源的 Linux + Google 的封闭软件 + 私有的基带 + 运营商锁定 = 开放的 Android 手机. iPhone：开源的 BSD + 苹果的闭源软件 + 私有的基带 + 运营商锁定 = 封闭的苹果 iPhone. 一个平庸的应用商店，开发者依靠广告赚钱，商店并非独此一家，用户找不到好软件.

twitter系统架构分析

- - 企业架构 - ITeye博客

twitter系统架构分析. （一）twitter的核心业务. twitter的核心业务，在于following和be followed：. （1）following-关注. 进入个人主页，会看到你follow的人发表的留言（不超过140个字），这是following的过程；. （2）followed-被关注.

Hadoop Metrics体系架构分析

- - 非技术 - ITeye博客

原文： http://blog.csdn.net/chenpingbupt/article/details/7957396. 本文基于Hadoop 0.20.XX版本分析，和现在的Metrics2稍有不同. Hadoop Metrics用来统计集群运行数据，比如接口调用次数，响应时间，队列长度等等，现阶段（0.19版本）支持为数不多的几个层级的数据，分别是dfs，jvm，rpc，mepred等.

Feed消息队列架构分析

- - Tim[后端技术]

最近一两年，大部分系统的数据流由基于日志的离线处理方式转变成实时的流式处理方式，并逐渐形成几种通用的使用方式，以下介绍微博的消息队列体系. 当前的主要消息队列分成如图3部分. 1、feed信息流主流程处理，图中中间的流程，通过相关MQ worker将数据写入cache、Redis及MySQL，以便用户浏览信息流.

数据分析平台系统架构

- - 企业架构 - ITeye博客

大数据技术是近几年发展比较繁荣的技术方向，出了很多优秀的开源项目，也有越来越多的公司投入大量人力在其中. 认识到数据的重要性，数据分析平台系统也成为数据平台重点建设的项目，数据分析被广泛应用到电商、金融、教育、医疗领域. 开源的OLAP数据分析引擎：. 1.2 wedata系统架构图. 已有 0 人发表留言，猛击->> 这里<<-参与讨论.

Uber 的实时数据分析系统架构 - 网站架构札记

- -

Uber 实时系统的 Use case：. 举一个更详细些的例子，UberEATS 是 Uber 的外卖服务. 实时系统也为这个功能估算送餐时间. 所有来自乘客和司机的事件 event ，由 Kafka 收集. Kafka 使用 Pub-sub 的订阅发布模式. Uber 整个系统中各个 microservice 之间的通信也通过了 Kafka.

今日头条技术架构分析_一直在努力的小渣渣-CSDN博客_架构分析

- -

今日头条创立于2012年3月，到目前仅4年时间. 从十几个工程师开始研发，到上百人，再到200余人. 产品线由内涵段子，到今日头条，今日特卖，今日电影等产品线. 今日头条是为用户提供个性化资讯客户端. 下面就和大家分享一下当前今日头条的数据（据内部与公开数据综合）：. 2014年5月1.5亿，2015年5月3亿，2016年5月份为5亿.

大型门户网站架构分析

相关 [门户网站架构分析] 推荐：