海量游戏数据的即时分析和挖掘

标签: Computer System | 发表时间:2012-07-29 18:00 | 作者:ideawu
出处:http://www.ideawu.net/blog

在 360 游戏, 我们每天要产生数亿条数据, 而且这个数据量每天都在增长, 其中包括用户的充值记录, 游戏数据, 各种行为等等. 如何高效地分析和挖掘这些海量数据是一个非常大的挑战.

我们首先遇到了数据的生产问题. 如何生产所需要的数据, 同时不影响主业务流程? 我们分为前端生产和后端生产. 不敏感的数据主要由前端生产, 而敏感的数据由后端生产. 而生产的方式也有多种, Web Server 的访问日志, 各个模块和子系统的访问日志, 主动增加的业务日志等等.

第二个问题是数据的汇总. 我们的服务器不是简单的一台, 而是多个机房的服务器组, 如何及时地将所有日志汇总? 我们使用了 Linux 自带的 syslog, 由 syslog 组成一个分布式日志系统, 最终日志被汇总到中心节点组.

第三个问题的数据的存储和获取. 存储是为了获取, 所以存储的方式是由获取方式决定的. 海量的数据显然无法存储在单台机器的硬盘上, 如果人工定期备份到磁带上也不合适, 无法方便读取. 我们分级存储的策略, 即时数据在内存中, 最近常用的数据存储在硬盘里, 备份的数据在 Hadoop 的 HDFS. 对于外部来说, 无法是历史的数据还是未来的数据(数据订阅服务), 都可以使用统一的接口来获取, 因为我们开发了日志读取服务, 将存储结构对日志的读取者隐藏. 这个决定让之后的日志分析和挖掘变得非常轻松.

第四个问题的日志的分析和挖掘. 既有历史数据的挖掘用于未来决策, 也有实时的统计以便像股票趋势图一样实时的展示在管理层人员的屏幕上让其把握趋势. 目前, 我们已经实现了常用的统计方法配置化. 统计是一门科学, 不仅仅是简单的代码编写, 还需要学科理论来支撑, 我们需要这样的人才, 如果你有兴趣, 可以联系我(邮件地址在 http://www.ideawu.net/blog/about).

最后一个问题是统计结果的展示. 这同样属性统计科学的范畴. 我们目前有常用的柱状图, 线图, 表格等等. 根据我在 另一篇日志中提到的数据模型, 我们的数据展示是可以细化和概化的, 既可以展示总体的数据, 也可以细化到分类来展示.

在业界来说, 只有少数公司才有如此大量的数据需要处理, 这是一个挑战, 同时机会也在向你 – 这篇日志的读者 – 开放, 如果你愿意用你的理论和实践能力来处理海量数据, 欢迎加入我们! 再一次, 联系地址见上文.

Related posts:

  1. 即时流式数据 MapReduce
  2. endlessssh – SSH 代理工具
  3. 从开源社区学来的知识应该更加开放
  4. PyPy – 吞下自己尾巴的小蟒蛇
  5. 以浏览器引擎为核心的软件架构

相关 [游戏 数据 分析] 推荐:

海量游戏数据的即时分析和挖掘

- - idea's blog
在 360 游戏, 我们每天要产生数亿条数据, 而且这个数据量每天都在增长, 其中包括用户的充值记录, 游戏数据, 各种行为等等. 如何高效地分析和挖掘这些海量数据是一个非常大的挑战.. 我们首先遇到了数据的生产问题. 如何生产所需要的数据, 同时不影响主业务流程. 不敏感的数据主要由前端生产, 而敏感的数据由后端生产.

解析移动游戏运营数据分析指标 - kobeshow

- - 博客园_首页
       在平常的工作中,经常会有一些马虎的数据分析师,接到业务方提到的需求后,大致扫一遍然后就吭叽吭叽做起来,最后出的分析结果报告交给业务方后没多久就打回来,说不是他想要结果,仔细一讨论发现双方的指标定义不一致,从而导致了一顿白忙活,造成“十动仍拒”的下场. 所以指标定义的清晰性是开始分析工作的前提.

Excel 数据分析

- - ITeye博客
用Excel做数据分析——直方图. 已有 0 人发表留言,猛击->> 这里<<-参与讨论. —软件人才免语言低担保 赴美带薪读研.

Linux 下的游戏现状分析

- - 开源中国社区最新新闻
虽然桌面版Linux是一个充满诱惑力的平台,但有一点“硬伤”却让很多人没有选择投入Linux的怀抱——那就是PC Gaming. 不管你喜欢与否,Windows平台才是PC Game的事实标准. 你没法指望Linux能对你最爱的游戏提供支持,但是你也可能会感到惊讶:有一些Windows上的游戏可以通过Wine这个兼容层 来在Linux上运行.

扯扯数据分析

- - 互联网分析
在别人的眼里数据分析既是很深奥的职业,也是被人挑战的职业,更是让你又恨又爱的职业. 其实这些都不重要的,重要的是对此行感兴趣,骨子里有量化一切的 意识. 很多人首先脑海中出现的是1、2、3……等等,为何有这样的印象. 其实是我们数据分析师为了更好的运用“统计学”所以要将许多 数据想尽办法来转化为1、2、3这样的数据形式,从而更深入、科学的分析data,不扯这个了,这个没什么意思,看图:.

数据分析那些事

- - 小蚊子乐园
今早突然有个想法,就是经常有网友会对数据分析方面有一些困惑,并且咨询我该怎么办. 并且经常是同样的问题,所以觉得有必要对一些经典共性的问题进行整理,与大家分享,这里并非标准答案,仅作参考. 欢迎提出自己对数据方面的疑问,将在此篇将持续更新,敬请关注. ----------------------------------------我不是完美的分割线--------------------------------------- .

谈大数据分析

- - 人月神话的BLOG
对于数据分析层,我们可以看到,其核心重点是针对海量数据形成一个分布式可弹性伸缩的,高查询性能的,支持标准sql语法的一个ODS库. 我们看到对于Hive,impala,InfoBright更多的都是解决这个层面的问题,即解决数据采集问题,解决采集后数据行列混合存储和压缩的问题,然后形成一个支撑标准sql预防的数据分析库.

数据分析之如何用数据?

- - 互联网分析沙龙
光知道怎么看数据,还是不成,你得熟悉这些数据拿到手上之后怎么去用它,怎么让数据显示出来它本身的威力来. 第一个部分,是看历史数据,发现规律. 以社区中的活动和电商中的促销为例,这些都是常见的活动,活动做得好的话有意想不到的效果. 在做这样的活动,最好是拿到前一个月或者两个月的历史数据. 对电商来说,从这里面要去分析各个品类的销售情况,那个品类销量最大,那个品类销量最小,每月或者每周的平均增长率和符合增长率是多少.

中国单机游戏用户群及盗版情况分析

- fid - cnBeta.COM
曾几何时,单机游戏陪伴着中国一大批玩家度过了一个个日日夜夜,也催生出了一批优秀的本土游戏工作室和游戏制作公司. 但时至今日,这些游戏工作室和 公司不是无力支撑最终倒闭就是转而制作网络游戏,偌大的中国竟然很难再找出一个具有国际影响力的单机游戏制作公司.