实时统计到底有多重要?

标签: 网站分析 实时 | 发表时间:2012-11-08 19:26 | 作者:标点符
出处:http://www.biaodianfu.com

最近的一个项目把先前数据清洗工作从原先的1小时清洗一次,处理成每10分钟处理一次。汇报的时候被问到实时数据到底带来了哪些价值?这。只能说是个值得思考的问题。

对于任何一个关注数据的人来说,总是期望越实时越好,更有甚者,期望可以预知未来(IBM就在通过数据研究未来20分钟内将会发生什么)。每个人或多或少存在一定的控制欲,他们期望能够对网站的当前状况了如指掌,知道每个小时甚至每十分钟的变化情况,这样的心理无可厚非,并不是说有需求我们就有做项目的原因。除了需求我们更需要关注的是项目的价值。项目的投入产生。

首先要说的是投入,说到实时数据肯定需要更多的资源,点击流的数据不能直接用来呈现,重要的是中间的计算过程,对数据进行分类汇总和技术,然后形成指标和报告。要在短时间内完成这些操作一定需要一定技术能力的服务器或服务器群组。带来成本上的上升。

再说产出,有了实时数据你很可能觉得一些很炫的功能可以实现,比如可以制作实时的趋势图。这是一个很能证明技术人员能力的技术活,很多技术人员也欣然的会去做这方面工作。有了实时的趋势图我们能做什么呢?比如你知道今天的这个时间节点网站的访问说突然下降了?我们可以采取什么方式去调整呢?我们有啥预案呢?还是久这么让他这样吧,知道总比不知道好。(另外网站的实时访问量的数据可能从运维那了解更加方便)。所以产生几乎为0.

另外从另一个角度来说,数据之所以重要是因为最终的分析,而实时数据大部分只是用来统计,起不到分析的效果。所以对于分析实时与否关系度不高。置于拿实时数据来做营销,我也觉得不太现实。

关于实时数据到底有没有用?他是否会带来负面的营销《 Web Analytics: An Hour a Day 》这本书数也有描述。其中作者的观点为:

  1. 不要一味追求数据的量,更应该注重数据的质,并通过有效的分析来体现数据的价值;
  2. 不符合10/90的原则,实时数据在获取上的成本显然无法和分析价值达成1:9的比例;
  3. 过多地关注实时数据会在分析工具的选择上造成拘束,无法使用真正优秀的网站分析工具;
  4. 技术上的系统资源占用、任务调度以及复杂的流程;
  5. 在某种程度上可能增加数据的不准确性。

对于实时数据,当一个公司真的具有 快速的分析能力快速的决策能力快速的执行能力时,那么实时的数据才能创造其价值。如果只是为了看实时数据而进行实时统计,而不是根据实时数据做出相应的action,那么实时数据就是华而不实的表现。

有的人可能会说实时数据可以利用在相关推荐上,其实不然,目前的大多数相关推荐只是做到实时匹配,后端的推荐内容都是通过历史数据事先生成好的。目前我唯一遇到的一个使用实时数据的是来自于: JYC统计,当我访问其网站的时候主动弹出对话框询问购买事宜等。 

Related posts:

  1. 谷歌分析报告之按小时查看数据
  2. 《Search Engine Optimization An Hour a Day》PDF下载
  3. Google 用户体验指标衡量方案:HEART

相关 [实时 统计] 推荐:

实时统计分析技术浅谈

- - CSDN博客推荐文章
    实时统计分析技术主要是为了满足数据应用中大家对数据的变化情况有一个较高时间灵敏度需求的情况. 应用要求能够近乎及时的反映数据的整体变化情况. 那么实时统计分析的核心关键点是实时性,也就是性能. 其还伴有另一个明确的特征,就是对于要统计的内容是十分明确的.     传统上,我们的数据统计分析方法是在一个关系数据库中创建表,然后将数据存储到表中.

实时统计到底有多重要?

- - 标点符
最近的一个项目把先前数据清洗工作从原先的1小时清洗一次,处理成每10分钟处理一次. 汇报的时候被问到实时数据到底带来了哪些价值. 对于任何一个关注数据的人来说,总是期望越实时越好,更有甚者,期望可以预知未来(IBM就在通过数据研究未来20分钟内将会发生什么). 每个人或多或少存在一定的控制欲,他们期望能够对网站的当前状况了如指掌,知道每个小时甚至每十分钟的变化情况,这样的心理无可厚非,并不是说有需求我们就有做项目的原因.

Spark Streaming+kafka订单实时统计实现

- - CSDN博客推荐文章
前几篇文章我们分别学习Spark RDD和PairRDD编程,本文小编将通过简单实例来加深对RDD的理解. 开发环境:window7+eclipse+jdk1.7. 部署环境:linux+zookeeper+kafka+hadoop+spark. 本实例开发之前,默认已搭好了开发环境和部署环境,如果未搭建,可以参考本人相关大数据开发搭建博客.

Google Maps 在部分城市换用 Inrix 统计到的实时路况信息

- Chinaxingwei - 谷奥——探寻谷歌的奥秘
Google在7月移除了桌面版Google Maps里的交通路况预测和预计驾车时间功能,因为它们实在是太不准了. 现在更准的来了,Google已经跟Inrix签署合作协议,在部分城市使用Inrix提供的技术来实时显示路况. Inrix之前从Kleiner Perkins和August Capital拿到了3700万美元投资,他们利用城市里超过3000万辆出租车、运输车、卡车和其它一些渠道通过众包的形式得到实时的交通信息,然后利用数据软件将分析出的数据卖给移动应用和网站来获利.

NetHogs——Linux下按进程实时统计网络带宽利用率

- - 极客范 - GeekFan.net
网上有很多适用于Linux操作系统的开源网络监视工具.比如说,你可以用命令iftop来检查带宽使用情况. netstat用来查看接口统计报告,还有top监控系统当前运行进程.但是如果你想要找一个能够按进程实时统计网络带宽利用率,那么NetHogs就是你所需要的唯一工具.. NetHogs – 网络带宽监控.

Kafka实战-实时日志统计流程 - 哥不是小萝莉

- - 博客园_首页
  在《 Kafka实战-简单示例》一文中给大家介绍来Kafka的简单示例,演示了如何编写Kafka的代码去生产数据和消费数据,今天给大家介绍如何去整合一个完整的项目,本篇博客我打算为大家介绍Flume+Kafka+Storm的实时日志统计,由于涉及的内容较多,这里先给大家梳理一个项目的运用这些技术的流程.

Google+统计报告

- pestwave - 36氪
Google+推出有一段时间了,用户性别比例如何呢. find people on plus对947996名Google+用户进行了统计,按照性别、地理位置、职位进行了分类,甚至还对来自Facebook和Google的员工进行了统计. 男:698,703 (73.70%). 女:234,504 (24.74%).

足球的统计

- Race forward! - 学而时嘻之
《足球的逻辑》这篇得到了不少有益的批评,以至于我很想写一个修改版,不过更有意思的做法是接着另写一篇. 更重要的是,这回终于可以提供一点数据支持了. 足球比赛的一个一般规律是下半场比上半场容易进球. 在以下几个大赛中,上下半场的进球比率分别是:. 98年世界杯:上半场39.2%,下半场60.8%. 02年世界杯:上半场41%,下半场59%.

hive 抽样统计

- - SQL - 编程语言 - ITeye博客
本文转自http://www.taobaotesting.com/blogs/2468,原文分层抽样的逻辑不是很清楚,按照自己的想法重新实现个. 用hive实现了随机抽样中简单随机、系统和分层抽样的方式,记得抽样的概念还是初中数据接触的. 其实很多时候不需要理论,想也是可以想到的,不过还是总结一下.

Oracle 统计信息

- - 数据库 - ITeye博客
--Oracle 优化器统计信息 Oracle优化器统计信息描述了关于数据库和相关对象的统计信息,当执行SQL查询时,优化器会使用这些统计信息估算出各种不同的执行计划的资源消耗, ,从而选择最高效的执行计划. 当统计信息缺失或者陈旧时,Oracle可能会选择错误的执行计划,导致SQL执行效率低下.