转自:TTNN Q先生杰作
大概是从今年开始,big data一词逐渐成为术语,这跟整个世界的数据爆发当然有关系。以前,人们喜欢用海量数据这个词,large-scale。这看上去还是显得有点学术气, 像是BI人自己关起门来说自己的宝贝。而big data更显通俗,在各行各业都显现出的一种势头,于是产生这个更加简单的词汇,大数据。
TDWI九月中旬发布的最佳实践报告正是调查大数据的分析状况。
今年年初翻译了TDWI关于操作型数据仓库的最佳实践报告,对他们这种最佳实践报告的套路已经比较熟悉。一般来说是:一下 定义;二看现状;三分长短;四谈趋势;最后还有个厂商介绍。这种报告多少还是有点商业利益的影子在里面,所以,后来觉得做此类翻译没什么意思。还是自己看 原文吧。
同样,这份报告一开始也是定义了big data这个术语。顾名思义,大数据就是数据量很大吧!不仅仅是,报告总结了3V,翻译过来,可以说是“量类时”,volume、variety、 velocity。不光是有大数据量,TB级以上甚至PB级,还有讲究数据类型的多样性,不光是结构化数据,非结构化数据文本语音,皆出大数据。不光是量 大、类型多样,还有时效,已经不光是批量倒入,还有准实时、实时甚至是数据流了。
要知道,big data其实只是一个概念,是新环境下,新人群对旧事物的一种称呼。咱们BI人其实也就是扯大旗,拉虎皮。内涵,还是那些东西,ETL、专题分析、可视化、数据挖掘。只不过,这个词的出现意味着BI的理念稍稍普及了而已。
在调查中,很多企业其实或多或少在这个名头下做分析的事情,专题分析,这是我们通常的叫法,或者叫advanced analytics。这是最常见的分析——给定一个业务问题(比如学生市场如何细分),用数据给出回答。不过要注意,其实专题分析(或advanced analytics)并非一个严格的术语,不像OLAP那样,有维度啊,度量啊之类的概念限制,专题分析似乎只是遵循一种模式而已,问题-数据分析-解 答。而至于如何分析,并没有要求,所以,只要符合这种模式的分析,不论是使用何种分析方法,几乎都可以说是专题分析,你无法去跟一个分析师说,你只是用了 excel的旋转透视表做分析,就不能叫专题分析。
所以,大概也是因为这个术语的模糊性,导致对分析师能力要求不够具体。从报告来看,可以看到目前大数据分析的最 大短板就在于人员的分析技能。这点在我们身边确实比比皆是。比如我们客户那儿,早先我们了解到每个地市公司都有自己的分析团队,每个团队大概也就是一两个 人吧。我们曾经问省公司,他们是否要进行日常的专题分析?回答说当然会做,而且做得快得很。后来去了解,确实也在做,大概一星期一个,主要就是接领导的需 要,分析一下这个,分析一下那个,主要工具用excel,透视一下,作图,贴到ppt里面完成。至于分析的深度,确实,在如此的时间内,对深度也不好意思 要求了吧,大体上是用数据呈现一下现状而已。那时我们才知道,虽然我们大家都在说专题分析,可对这个东西的要求并不完全一致,我们的分析团队对此有更严格 的要求。这种要求可能是“必须有业务发现”。
不过这种要求显然也难以衡量,什么叫业务发现?这是对结论的要求,可对过程的要求呢?问题以何种形式定义;分析逻辑如何编排;采用什么样的分析方法,配备什么形式什么周期的数据。这些可能都需要做要求。
当我们仍然使用专题分析、高级分析这类术语时,就必定仍然在模糊分析工作。未来,也许会有一天,会有一个新的术语,新的具备更清晰概念内涵的术语,来替代它们。
在四谈趋势环节,列举了很多跟大数据分析相关的技术,报告用一个二位矩阵来表示这些技术的应用度和潜力。横轴是应用潜力,纵轴是应用度(越大当然就是指现在实际用得多的)。基本分成了四个群体。
1、应用但没啥潜力的:如olap、手写sql、统计分析、数据分析集市;
2、应用不少,有点潜力的:如数据挖掘、数据库内分析、分析数据库、DWA、私云、分析沙盒;
3、应用不多,但很有潜力的:如MapReduce、Hadoop、No-SQL数据库、SaaS…
4、极具潜力应用也不错的:如专题分析(高级分析)、高级分析可视化、预测分析、实时仪表盘、文本挖掘、内存内分析、可视化分析
看,基本上只有第3群对BI来说是新东西,嗯,其实也没多新。
大数据分析最佳实践,首发于 互联网分析。