大型互联网站解决海量数据的常见策略

标签: Uncategorized | 发表时间:2012-02-12 14:49 | 作者:flychen
出处:http://flychen.com

   大型互联网站的数据存储与传统存储环境相比不仅是一个服务器、一个数据库那么简单,而是由网络设备、存储设备、应用服务器、公用访问接口、应用程序 等多个部分组成的复杂系统。分为 业务数据层、计算层、数据仓储、数据备份,通过应用服务器软件提供数据存储服务,并且通过监控工具对存储单元监控。

    随着系统中用户数据量的线性增长,数据量将会越来越多。在这样一个数据不断膨胀的环境中,数据已经如洪水般汹涌泛滥。数据查找和调用困难,在海量数据中一些用户提交的请求往往要等到第二天才能得知结果,直接影响到了用户满意度的提升和新业务的布局。在技术上而言,这一特点使得RDBMS在大型应用场景被大幅限制,唯一的可选方案是Scale Out,通过增加多个逻辑单元的资源,并使它们如同一个集中的资源那样提供服务来实现系统的扩展性。

   系统中的数据就好比我们家里的物品,衣服放在衣柜里,碟子放在碗橱里,数据库、存储系统就好比你的衣柜和碗橱是一个存放的容器,衣服和碟子就好比不同的数据,将不同类型的东西放入合适的存储空间里面,这样系统的效率和利用率将会更高,所以我们将会做出如下设计,如图所示:

查看大图请点击这里

对于大型系统存储单元的结构模型我们分为6个部分组成,清单如下:

1. 业务数据层
各类业务所产生的各种文件类型的数据,其中包含 用户信息、用户操作记录、实时业务数据、手机客户端升级应用程序、图片,等。

2. 计算层
针对不同的数据格式、不同类型的数据文件,通过不同的工具、计算方法进行操作,针对大量的数据计算采用一些分布式、并行计算的算法,例如:MapReduce,BSP。并且对一部分的数据进行缓存,缓解对存储应用服务器的压力。

3. 数据存储层
对于海量数据的查询与存储,特别是针对用户行为日志操作,需要使用到一些列式数据库服务器,对于处理业务和一些业务规则的数据依然存放在关系型数据库中,将采用MySQL来存储。

4. 数据仓储
数据存储主要是针对于用户行为日志和用户行为分析,也是系统中数据量产生较大的一个环节,将会采用Apache Hive、Pig、Mathout 对数据仓储进行构建。

5. 数据备份
分为在线数据备份和离线数据备份,数据备份环节需要经过运维经验的积累,根据业务和用户访问量进行定制合理的备份规律。

6. 硬件
硬件环境是存储单元最基础的部分,分为磁盘、内存、网络设备存储,将不同的业务数据、文件存储在不同的硬件设备上。

技术实现
对于系统不同的业务数据和应用服务器的架构需要采用不同的读写方式,以及数据存储类型存放,数据仓储构建,数据冷热分离、数据索引多个部分组成。例如:业务应用程序、日志采集代理、用户空间文件系统(Filesystem in Userspace)。Data Access Proxy Layer(DDAL/Cache Handler)、OLAP、日志服务器、Oracle(暂定)、MySQL、Redis、Hive、HDFS、Moosefs。

如图所示:

<a href=”http://ww4.sinaimg.cn/large/6579bcb1

from H.E. 's Blog http://www.javabloger.com/article/big-data-architecture.html?source=rss


您可能也喜欢:

海量数据实时计算随笔

大型互联网站解决高并发的常见策略

如何让数据说话! —网站实例分析

MySQL索引背后的数据结构及算法原理
来自无觅网络的相关文章:

梦想之路VIP数据恢复系列教程 (@qyqblog)

数据恢复技术深度揭秘 (@qyqblog)

linux 数据恢复-抢救已经删除的档案 (@starsliao)

EMC Celerra 重复数据删除 (@storageonline)
无觅

相关 [互联网 数据 常见] 推荐:

大型互联网站解决海量数据的常见策略

- - 搜索引擎技术博客
   大型互联网站的数据存储与传统存储环境相比不仅是一个服务器、一个数据库那么简单,而是由网络设备、存储设备、应用服务器、公用访问接口、应用程序 等多个部分组成的复杂系统. 分为 业务数据层、计算层、数据仓储、数据备份,通过应用服务器软件提供数据存储服务,并且通过监控工具对存储单元监控.     随着系统中用户数据量的线性增长,数据量将会越来越多.

互联网数据聚合

- - 四火的唠叨
文章系本人原创,转载请保持完整性并注明出自 《四火的唠叨》. 我们经常需要从互联网上获取数据,在很多情况下,你需要的是特定信息,或者说是符合某些条件的信息,比如:. 这条需求隐含着两个有普遍意义的步骤:. 从互联网上聚合符合特定条件的信息;. 当满足阈值条件时,以某种方式通知用户. 事实上有太多做互联网数据聚合的网站了,比如 酷讯机票,聚合了各大航空公司的机票信息:.

移动互联网数据收集(1)

- - 曉生語錄
UC《2012年移动互联网趋势报告》. 1.UC用户量3亿,月活跃用户突破2亿,海外用户超过4000万. 2.Android月活跃用户超过4000万,年增长超过10倍,2012年Andorid智能终端有望达到1.8亿. 3.Android3.1-4寸大屏幕占79.7%,2.3固件占56.9%. 4.Android用户中,3G接入占11.4%,WIFI接入占25.4%.

互联网用户常见心理特征

- - Taobao UED Team
注:本文是我在淘宝的内网中发现的一片文章,作者来自于测试团队的霜波同学,她是我淘宝讲师团队的同事,爱好广泛,去年一年都在研究心理学. 这篇文章写的是互联网用户的心理学特征,我觉得分析的很到位,感觉这些行为就是每天发生在自己身上一样. 我想,这对设计师来说,了解这些用户行为背后的原因是非常重要的. 近半年持续关注了一些用户反馈和客服电话,从一些常见问题中总结出了八点互联网用户常见心理特征,在此共享,希望能共同努力提高用户体验.

互联网产品常见失败原因及解决之道

- - 人人都是产品经理
【导读】成功的原因只有一个,而失败的理由却各不相同!作为一个产品人员,在产品成功的时候总会被奉成“牛逼的人”,而在产品失败的时候,又有多少人会知道你呢. 别想着一个产品失败了是因为用户的问题,别想着一个产品的失败是因为团队的问题,站在用户的角度,从自身找原因,看看你是不是从一开始就败了. 对行业认知较浅,对用户体验做的不够好,流程不够完善,缺乏沟通.

常见互联网34个术语解释

- - IT江湖
之前花了点时间收集了一些互联网术语和解释,现在分享出来,给小伙伴们添堵添乱,哈哈 :D. (1) DAU : daily active user,日活跃用户数量. (2) MAU : 月活跃用户量. (3) ARPU : (Average Revenue Per User)即每用户平均收入,用于衡量电信运营商和互联网公司业务收入的指标.

手机上的大数据:移动互联网的入口

- - 雷锋网
【编者按】本文由百分点信息无线业务部高级总监李晓东、Talkdata COO徐懿以及成都电子科大的龚亮联合撰写. 随着移动互联网的的发展,一些在传统互联网上已经被解析无数次的“观念”也在移动互联网上出现. 例如,互联网的入口,在目前,移动互联网并没有一家独大的情况出现,似乎也没有这种情况出现的可能.

2011年中国移动互联网关键数据解读

- - ITeye资讯频道
今天 网易应用中心联合 网易科技频道联合发布了 《2011网易移动互联网数据报告》,这份报告的数据来源涵盖超过5000万网易移动用户,超过100亿次用户启动数量及大量用户采样调查数据. 其中包含系统、应用、用户的众多指标性数据,对于互联网从业者、开发者、创业者都有较大的参考价值. RTdot以该报告为基准,给大家挑选了一些关键数据供大家参考.

2011全球互联网数据大汇总

- - 博客园_新闻
导读: pingdom 网站收集各种资料汇总了一篇 2011 年的数据,涉及到 Email、网站、浏览器、服务器、移动、社交网络和互联网用户等方面. 内容也颇为丰富,并且有少量配图. 2011年已经悄然离去,我们迎来了崭新 2012 年. 回顾 2011,互联网风生水起,到底发生了多少事情. 全球有多少个 Email 账号.

[转载]互联网广告的未来趋势——数据

- - 牛国柱
关于互联网广告的未来,也曾零碎的提到过:1、大数据应用的精准投放;2、广告投放的优化算法;3、跨平台、多屏的广告控制与监测,但一直没有进行详细的阐述,预期自己的总结也会在年后进行. 在总结文章没有写作之前,我们可以通过其他文章来了解广告的发展趋势. 下面由易传媒撰写的这篇文章很好的诠释了互联网广告的未来之一,数据应用方面的发展,值得一读.