谈大数据分析

标签: IT咨询 | 发表时间:2013-06-02 03:58 | 作者:人月神话
出处:http://blog.sina.com.cn/cmmi
对于大数据分析可以说是大数据平台的一个核心内容,如果我们把大数据的价值发挥分为两个阶段的话,数据分析是第一个阶段,对应传统的ODS库,重点是解决业务应用统计分析报表功能,需要具备可变性,准实时性,数据结构也基本和业务系统数据表一致;第二个阶段是数据挖掘和决策分析,模型导入阶段,在这个阶段将对应到传统的DW层面,往往需要对数据进行重新建模以支撑各种需要的维度分析和层次分析,在DW阶段往往不会再有太高的实时性要求,重点是数据挖掘和数据分析决策模型引入。

对于数据分析层,我们可以看到,其核心重点是针对海量数据形成一个分布式可弹性伸缩的,高查询性能的,支持标准sql语法的一个ODS库。我们看到对于Hive,impala,InfoBright更多的都是解决这个层面的问题,即解决数据采集问题,解决采集后数据行列混合存储和压缩的问题,然后形成一个支撑标准sql预防的数据分析库。所以对于大数据分析层是一个偏底层的东西,核心是解决数据ETL,数据存储,数据能力的开放。

对于数据采集我们看到各种大数据分析方案基本都是解决数据数据批量导入问题,而不是解决ETL问题,对于Hive方案下拓展了Sqoop来解决数据采集和集成的问题,对于InfoBright本身还要依赖于其它采集集成方案。但是一般不会做负责的数据转换,映射,清理和聚合等ETL支撑的操作。对于oracle的ODI-ELT工具,informatic的ETL工具可以看到,informatic工具更加容易来实现数据层的适配,和适配后在内存中进行的各种清理转换。

对于数据采集和入库,最高效的方式不是jdbc或odbc直接连接下的数据获取和写入,而是能够使用数据库本身的原生接口下的批量数据导出和批量数据装载。类似sql server和sybase的BCP工具,oracle 的 import工具,mysql的load data工具等。但是这种模式下仍然存在ETL中的transform操作无法去做的问题。对于导入导出这种模式,对于oracle的ODI的知识模块设计思路相当值得借鉴,即对于一个数据集成的过程根据导出,导入,转换等拆分为多个单独的步骤进行处理,每个单独的步骤都是可以复用的模块具备相应的适配功能。可以看到对于DataX工具基本也沿用了类似的数据库适配下的Reader和Writer的思路来进行大数据量集成和传输。

ODS中的数据我们讲一般是满足准实时性要求,而非完全的实时性。对于数据的采集同样应该基本两个核心功能,一个是数据采集的分段并行采集和处理,一个是数据采集的增量获取和导入。在这种模式下以满足相应的准实时数据获取和更新的业务需求。对于传统BI里面的ODS库本身是允许一定的后续数据处理和CRUD操作,即允许数据的可变性,而对于当前的Hive,InfoBright的社区版而言这方面功能相对来说偏弱,这就导致数据分析层真正能发挥作用还是得有一个前置的数据处理层,数据处理完成后再导入到InfoBright中。

这些问题都解决了基本有一个高扩展,可性能的分布式ODS库,支持常见的各种sql关联汇总语句。但是还无法算上一个完整意义上的大数据平台层。而更加重要的则是分析库,可复用的算法模型等各种模块的植入,以使大数据分析层具备更强的数据挖掘能力。对于DW和决策分析层,则是后话。

参考资料收集:


ODS和DW的区别:http://hi.baidu.com/bystander1983/item/f6e1ce480f74e40de935045b
InfoBright架构分析:http://www.cnblogs.com/inmanhust/archive/2010/05/07/Inmanhust.html
秒级大数据分析:http://wenku.baidu.com/view/fb660ce9f8c75fbfc77db287.html
MySQL的LoadData命令:http://wheat.diandian.com/post/2011-05-15/6997730
Sqoop使用基础:http://dacoolbaby.iteye.com/blog/1868305

  青春就应该这样绽放   游戏测试:三国时期谁是你最好的兄弟!!   你不得不信的星座秘密

相关 [大数据 分析] 推荐:

谈大数据分析

- - 人月神话的BLOG
对于数据分析层,我们可以看到,其核心重点是针对海量数据形成一个分布式可弹性伸缩的,高查询性能的,支持标准sql语法的一个ODS库. 我们看到对于Hive,impala,InfoBright更多的都是解决这个层面的问题,即解决数据采集问题,解决采集后数据行列混合存储和压缩的问题,然后形成一个支撑标准sql预防的数据分析库.

大数据分析的5个方面

- - ITeye资讯频道
越来越多的应用涉及到大数据,不幸的是所有大数据的属性,包括数量、速度、多样性等等都是描述了数据库不断增长的复杂性. 那么大数据给我们带来了什么好处呢. 大数据最大的好处在于能够让我们从这些数据中分析出很多智能的、深入的、有价值的信息. 下面我总结了分析大数据的5个方面. Analytic Visualizations(可视化分析).

下一代大数据分析技术

- - Parallel Labs
原文发表于《程序员》杂志2013年第2期.. 随着以Hadoop为代表的大数据分析技术的普及,大数据的商业价值得到深入挖掘,并开始在互联网、零售、医疗、物联网等多个行业里成为商业变革的主导力量. Facebook最近就发布了名为Graph Search的新型社交搜索产品,基于海量的社交关系网络及“Likes”行为数据,为用户提供个性化的社交搜索服务,该产品被认为将是Google搜索业务的重要竞争对手.

大数据分析的分类-转载

- - 人月神话的BLOG
原文:http://www.csdn.net/article/2011-08-15/303101. Hadoop平台对业务的针对性较强,为了让你明确它是否符合你的业务,现粗略地从几个角度将大数据分析的业务需求分类,针对不同的具体需求,应采用不同的数据分析架构. 按照数据分析的实时性,分为实时数据分析和离线数据分析两种.

大数据分析最佳实践

- - 互联网分析
   转自:TTNN   Q先生杰作. 大概是从今年开始,big data一词逐渐成为术语,这跟整个世界的数据爆发当然有关系. 以前,人们喜欢用海量数据这个词,large-scale. 这看上去还是显得有点学术气, 像是BI人自己关起门来说自己的宝贝. 而big data更显通俗,在各行各业都显现出的一种势头,于是产生这个更加简单的词汇,大数据.

基于mdrill的大数据分析

- - CSDN博客云计算推荐文章
     数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵. 几十亿、几百亿、甚至几千亿的数据量,如何才能高效的分析. mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的维度进行组合与过滤.     mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据.

大数据分析查询引擎Impala

- - 标点符
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据. 已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性. 相比之下,Impala的最大特点也是最大卖点就是它的快速.

大数据下的数据分析平台架构

- vento - 《程序员》杂志官网
随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求. 作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”. 多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上.