实时统计分析技术浅谈

标签: 实时 统计分析 技术 | 发表时间:2013-05-22 08:40 | 作者:colorknight
出处:http://blog.csdn.net
    实时统计分析技术主要是为了满足数据应用中大家对数据的变化情况有一个较高时间灵敏度需求的情况。应用要求能够近乎及时的反映数据的整体变化情况。那么实时统计分析的核心关键点是实时性,也就是性能。其还伴有另一个明确的特征,就是对于要统计的内容是十分明确的。
    传统上,我们的数据统计分析方法是在一个关系数据库中创建表,然后将数据存储到表中。最后利用SQL语句从数据库中统计获得自己需要的统计结果。以此为基础的实时统计分析方案为为设置一个调度计划,定期调度SQL语句对数据表进行周期性的统计,并保存统计结果到另外一张表。这个周期的选取经常让我们头疼不已,周期太小,数据库压力太大会影响到其它业务,但统计结果的实时性高,应用效果好;周期太大,数据库压力相对较小,但统计实时性较差,应用效果也较差。另外,在这样的技术实现中,会伴有大量的磁盘IO操作,性能会有损失,且只能得到一个准实时的统计效果。
    随着开源或商用的内存数据库,如MemSQL、VoltDB、eXtremeDB、SQLLite等,的大量涌现,实时统计分析技术应来了新的春天。数据可以暂时存储到内存数据库中,然后定期持久化到磁盘中;或者数据一直驻留在内存数据库中。系统依然采用定期执行SQL的方式对内存数据库中的数据进行统计。由于数据驻留在内存,磁盘IO的消耗不存在了,性能有了极大的提升。这也使得我们对于调度周期的选取变得不那么困难。统计的实时性也得到了提高。
    内存数据库的出现对于实时统计分析技术有了很大的改观,但其实现没有摆脱传统的任务定期调度的方式。编程的程序控制复杂度也相对较高。而一款新的、基于内存统计分析的开源工具MOQL(基于JAVA)的出现为实时统计提供了更多的选择。MOQL与SQL语法兼容,但其不依赖于任何一款数据库,也就是其没有事务的概念。它可以对内存中的任何对象进行统计分析,而不关心对象的存储方式。它与传统基于数据库的实时统计分析在实现原理上存在差别。传统的基于数据库的统计分析中,数据如同流淌在管道中的水,而数据库相当于一个蓄水池。我们等水流入蓄水池并达到一定量的时候,再用滤网对水池中的水进行过滤,捞取我们想要的信息,我们可以重复多次捞取;而MOQL解决实时统计的思路就好像直接为水管设置了滤网,水只要从管道中流经就会被实时的过滤,并获取结果,几乎没有延时。另外,可以通过设置多层滤网的方式对数据进行多层过滤,获得不同的过滤结果。
    这两种实时统计分析方法各有各自的优缺点,在此不做详细比较。在选取开发实时统计分析的相关技术时,性能、编程复杂度等在不同的应用场景下拥有不同的选取策略,需权衡考虑,无法一概而论。
(有兴趣了解MOQL的读者可以看我的微薄中关于MOQL的文章)
作者:colorknight 发表于2013-5-22 8:40:32 原文链接
阅读:0 评论:0 查看评论

相关 [实时 统计分析 技术] 推荐:

实时统计分析技术浅谈

- - CSDN博客推荐文章
    实时统计分析技术主要是为了满足数据应用中大家对数据的变化情况有一个较高时间灵敏度需求的情况. 应用要求能够近乎及时的反映数据的整体变化情况. 那么实时统计分析的核心关键点是实时性,也就是性能. 其还伴有另一个明确的特征,就是对于要统计的内容是十分明确的.     传统上,我们的数据统计分析方法是在一个关系数据库中创建表,然后将数据存储到表中.

移动市场统计分析

- 壮壮爱 - 译言-每日精品译文推荐
来源Microsoft\'s Growth of Mobile Marketing. 译者chunfengqiushui. 人们相比以前花更多的时间在手机上,这个新的市场包括:智能手机、SEO(搜索引擎优化)、移动网站、地理定位和社交营销. 全世界40多亿在用手机中有10.8亿是智能手机,30.5亿是能收发短信的手机.

从未降级的搜索技术-实时之刃

- - 搜索技术博客-淘宝
流量是互联网变现的基石,而流量的资源是有限的,如何实现资源的最大化利用(买家-商品的最高效的匹配)是此次双11搜索技术深度切入的使命,也是第一次在双11通过实时把握资源流动的脉搏来控制资源的收和放. 天猫的业务团队同学,通过针对去年双11细致认真的数据分析,发现了去年双11暴露的一些问题. 小部分商品预热过度,预热期吸引的加购量远超出商品库存能支撑的量,大部分用户虽然加了购物车但当天也抢不到,购物车转化率低;而大部分商品预热不足,没有充分曝光;.

Web应用中实时消息技术总结

- - 标点符
在互联网应用中,很多时候我们需要在客户端和服务端之间进行实时的消息交互,比如下面这些常见的应用场景:. SNS网站用户互动消息通知(weibo/twitter). 门户网站实时滚动新闻(突发事件)、文字直播(体育赛事). 实时数据展示(实时股价,实时商品价,服务器实时监控等). 接下来就来看看web开发中常见的实时消息的实现技术方案,每种方案都各有优缺点,在不同的应用场景下有不同的选择.

唯品会海量实时OLAP分析技术升级之路

- - 运维派
本文根据谢麟炯老师在〖DAMS 2017中国数据资产管理峰会〗现场演讲内容整理而成. 谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作. 海量数据实时OLAP场景的困境.

最火实时大数据OLAP技术原理和实践

- -
Druid在大数据领域已经不是新人了,因此可能很多读者都已经听说过Druid,甚至用过Druid,但是未必每个人都真正清晰地了解Druid到底是什么,以及在什么情况下可以用Druid. 同时,为了避免大家听了半天,却一直陷在各种细节中但仍然不知道到底在听什么东西,我们还是有必要在开始的时候先总体谈一谈Druid到底是什么.

BIGO技术:实时计算平台建设

- - InfoQ推荐
BIGO全球音视频业务对数据的实时能力要求越来越高,数据分析师希望多维度实时看到新增用户、活跃用户等业务数据以便尽快掌握市场动向,机器学习工程师希望实时拿到用户的浏览、点击等数据然后通过在线学习将用户偏好快速加入到模型中,以便给用户推送当前最感兴趣的内容,APP开发工程师希望能够实时监控APP打开的成功率、崩溃率.

SEOMOZ 2011排名因素的数据收集与统计分析

- liang - SEM WATCH
SEOmoz在此次的2011版搜索引擎优化排名因素的调查中,使用了让人耳目一新的统计学方法. 其中主要采用到的是Pearson积距相关系数. 而具体使用的方法,在http://www.seomoz.org/article/search-ranking-factors#methodology此文中有一些概述性的阐述.

分析报告、统计分析和数据挖掘的区别

- - 互联网分析
关于数据挖掘的作用,Berry and Linoff的定义尽管有些言过其实,但清晰的描述了数据挖掘的作用. “分析报告给你后见之明 (hindsight);统计分析给你先机 (foresight);数据挖掘给你洞察力 (insight)”. 你看到孙悟空跟二郎神打仗,然后写了个分析报告,说孙悟空在柔韧性上优势明显,二郎神在力气上出类拔萃,所以刚开始不相上下;结果两个人跑到竹林里,在竹子上面打,孙悟空的优势发挥出来,所以孙悟空赢了.

博客2011年度流量统计分析

- - 月光博客
  下面是使用Google Analytics(谷歌分析)中查看月光博客的2011年度流量统计分析,分析时间为今年一年时间,今年全年和去年全年的数据进行横向对比分析.   独立访问数增加了9.50%,综合浏览量增加了12.32%;每次访问页数为1.74,增加2.58%;跳出率74.06%,减少2.62%;平均网站停留时间00:01:39;增加14.09%;新访问次数百分比76.30%,减少1.86%.