大数据分析最佳实践

标签: 分析视角 技术前沿 | 发表时间:2013-07-05 11:18 | 作者:admin
出处:http://www.datakong.cn
   转自:TTNN   Q先生杰作
大概是从今年开始,big data一词逐渐成为术语,这跟整个世界的数据爆发当然有关系。以前,人们喜欢用海量数据这个词,large-scale。这看上去还是显得有点学术气, 像是BI人自己关起门来说自己的宝贝。而big data更显通俗,在各行各业都显现出的一种势头,于是产生这个更加简单的词汇,大数据。
TDWI九月中旬发布的最佳实践报告正是调查大数据的分析状况。
今年年初翻译了TDWI关于操作型数据仓库的最佳实践报告,对他们这种最佳实践报告的套路已经比较熟悉。一般来说是:一下 定义;二看现状;三分长短;四谈趋势;最后还有个厂商介绍。这种报告多少还是有点商业利益的影子在里面,所以,后来觉得做此类翻译没什么意思。还是自己看 原文吧。
同样,这份报告一开始也是定义了big data这个术语。顾名思义,大数据就是数据量很大吧!不仅仅是,报告总结了3V,翻译过来,可以说是“量类时”,volume、variety、 velocity。不光是有大数据量,TB级以上甚至PB级,还有讲究数据类型的多样性,不光是结构化数据,非结构化数据文本语音,皆出大数据。不光是量 大、类型多样,还有时效,已经不光是批量倒入,还有准实时、实时甚至是数据流了。
要知道,big data其实只是一个概念,是新环境下,新人群对旧事物的一种称呼。咱们BI人其实也就是扯大旗,拉虎皮。内涵,还是那些东西,ETL、专题分析、可视化、数据挖掘。只不过,这个词的出现意味着BI的理念稍稍普及了而已。
在调查中,很多企业其实或多或少在这个名头下做分析的事情,专题分析,这是我们通常的叫法,或者叫advanced analytics。这是最常见的分析——给定一个业务问题(比如学生市场如何细分),用数据给出回答。不过要注意,其实专题分析(或advanced analytics)并非一个严格的术语,不像OLAP那样,有维度啊,度量啊之类的概念限制,专题分析似乎只是遵循一种模式而已,问题-数据分析-解 答。而至于如何分析,并没有要求,所以,只要符合这种模式的分析,不论是使用何种分析方法,几乎都可以说是专题分析,你无法去跟一个分析师说,你只是用了 excel的旋转透视表做分析,就不能叫专题分析。
所以,大概也是因为这个术语的模糊性,导致对分析师能力要求不够具体。从报告来看,可以看到目前大数据分析的最 大短板就在于人员的分析技能。这点在我们身边确实比比皆是。比如我们客户那儿,早先我们了解到每个地市公司都有自己的分析团队,每个团队大概也就是一两个 人吧。我们曾经问省公司,他们是否要进行日常的专题分析?回答说当然会做,而且做得快得很。后来去了解,确实也在做,大概一星期一个,主要就是接领导的需 要,分析一下这个,分析一下那个,主要工具用excel,透视一下,作图,贴到ppt里面完成。至于分析的深度,确实,在如此的时间内,对深度也不好意思 要求了吧,大体上是用数据呈现一下现状而已。那时我们才知道,虽然我们大家都在说专题分析,可对这个东西的要求并不完全一致,我们的分析团队对此有更严格 的要求。这种要求可能是“必须有业务发现”。
不过这种要求显然也难以衡量,什么叫业务发现?这是对结论的要求,可对过程的要求呢?问题以何种形式定义;分析逻辑如何编排;采用什么样的分析方法,配备什么形式什么周期的数据。这些可能都需要做要求。
当我们仍然使用专题分析、高级分析这类术语时,就必定仍然在模糊分析工作。未来,也许会有一天,会有一个新的术语,新的具备更清晰概念内涵的术语,来替代它们。
在四谈趋势环节,列举了很多跟大数据分析相关的技术,报告用一个二位矩阵来表示这些技术的应用度和潜力。横轴是应用潜力,纵轴是应用度(越大当然就是指现在实际用得多的)。基本分成了四个群体。
1、应用但没啥潜力的:如olap、手写sql、统计分析、数据分析集市;
2、应用不少,有点潜力的:如数据挖掘、数据库内分析、分析数据库、DWA、私云、分析沙盒;
3、应用不多,但很有潜力的:如MapReduce、Hadoop、No-SQL数据库、SaaS…
4、极具潜力应用也不错的:如专题分析(高级分析)、高级分析可视化、预测分析、实时仪表盘、文本挖掘、内存内分析、可视化分析
看,基本上只有第3群对BI来说是新东西,嗯,其实也没多新。

大数据分析最佳实践,首发于 互联网分析

相关 [大数据 分析 最佳实践] 推荐:

大数据分析最佳实践

- - 互联网分析
   转自:TTNN   Q先生杰作. 大概是从今年开始,big data一词逐渐成为术语,这跟整个世界的数据爆发当然有关系. 以前,人们喜欢用海量数据这个词,large-scale. 这看上去还是显得有点学术气, 像是BI人自己关起门来说自己的宝贝. 而big data更显通俗,在各行各业都显现出的一种势头,于是产生这个更加简单的词汇,大数据.

MySQL与OLAP:分析型SQL查询最佳实践探索

- - Web前端 - ITeye博客
搞点多维分析,糙快猛的解决方案就是使用ROLAP(关系型OLAP)了. 数据经维度建模后存储在MySQL,ROLAP引擎(比如开源的Mondrian)负责将OLAP请求转化为SQL语句提交给数据库. OLAP计算分析功能导致MySQL需要进行较多复杂SQL查询,性能调优必不可少,本文总结了一些实用原则.

智能投放系统之场景分析最佳实践

- - 美团点评技术团队
新美大平台作为业内最大的O2O的平台,以短信/push作为运营手段触达用户的量级巨大,每日数以千万计. 美团点评线上存在超过千万的POI,覆盖超过2000城市、2.5万个后台商圈. 在海量数据存在的前提下,实时投放的用户在场景的选择上存在一些困难,所以我们提供对场景的颗粒化查询和智能建议,为用户解决三大难题:.

jQuery最佳实践

- andi - 阮一峰的网络日志
上周,我整理了《jQuery设计思想》. 那篇文章是一篇入门教程,从设计思想的角度,讲解"怎么使用jQuery". 今天的文章则是更进一步,讲解"如何用好jQuery". 我主要参考了Addy Osmani的PPT《提高jQuery性能的诀窍》(jQuery Proven Performance Tips And Tricks).

PHP最佳实践

- xiangqian - 阮一峰的网络日志
虽然名字叫《PHP最佳实践》,但是它主要谈的不是编程规则,而是PHP应用程序的合理架构. 它提供了一种逻辑和数据分离的架构模式,属于MVC模式的一种实践. 我觉得,这是很有参考价值的学习资料,类似的文章网上并不多,所以一边学习,一边就把它翻译了出来. 根据自己的理解,我总结了它的MVC模式的实现方式(详细解释见译文):.

MongoDB最佳实践

- - NoSQLFan
将 MongoDB加入到我们的服务支持列表中,是整个团队年初工作计划中的首要任务. 但我们感觉如果先添加一项对NoSQL存储的支持,而不是先升级已支持的关系型数据库,可能对用户不太好,毕竟目前的用户都使用关系型数据库. 所以我们决定将引入MongoDB这项工作放到升级MySQL和PostgreSQL之后来做.

Dockerfile 最佳实践

- - DockOne.io
在容器领域,Docker 公司提出的容器镜像已经成为目前容器打包交付的事实标准. 构建镜像需要编写 Dockerfile,如何编写一个优雅的 Dockerfile 呢. 在 Docker 公司的官方文档中给出了一篇:《 Best practices for writing Dockerfiles》.

谈大数据分析

- - 人月神话的BLOG
对于数据分析层,我们可以看到,其核心重点是针对海量数据形成一个分布式可弹性伸缩的,高查询性能的,支持标准sql语法的一个ODS库. 我们看到对于Hive,impala,InfoBright更多的都是解决这个层面的问题,即解决数据采集问题,解决采集后数据行列混合存储和压缩的问题,然后形成一个支撑标准sql预防的数据分析库.

文章: Grails最佳实践

- - InfoQ cn
我在IntelliGrape工作,这是一家专门使用Groovy & Grails进行开发的公司. 本文是我们Grails项目遵循的最佳实践的基本清单,收集自邮件列表、Stack Overflow、博文, 播客和 IntelliGrape的内部讨论. 它们分为控制器、服务、Domain、视图、TagLib、测试和其他.

PHP最佳实践(译)

- - CSDN博客Web前端推荐文章
原文:  PHP Best Practices-A short, practical guide for common and confusing PHP tasks. 译者: youngsterxyf. 本文档最后审阅于2013年3月8日. 由我, Alex Cabal,维护该文档. 我编写PHP程序已有很长一段时间了,当前我 经营着 Scribophile,由认真作家组成的一个在线写作团体,  Writerfolio,为自由职业者提供的一个易用写作工具集,以及  Standard Ebooks,一个图文并茂、无数字版权管理的公共领域电子书出版商.