谈大数据-架构维度

标签: IT咨询 | 发表时间:2013-05-26 13:17 | 作者:人月神话
出处:http://blog.sina.com.cn/cmmi
本篇作为在构思大数据平台架构时候维度方面的简单点滴思考记录。

前面关于大数据平台架构的核心功能的时候谈到过,基本应该包括数据采集和集成,数据存储,数据处理,数据分析这些核心层面。我在前面谈大数据平台的时候也谈到过平台不仅仅是云和分布式相关技术的引入,其架构一方面和传统的BI相似,但是更加重要的则是对外部应用涉及到大数据的应用场景的支撑和大数据平台本身的大数据服务能力的开放问题。

最近我一直在看各大厂商的一些大数据解决方案和平台架构,发现比较大的一个问题点还是在于原有的大数据平台更多的是各个已有的产品的简单整合,原来的各个子产品本身也是针对实际的业务应用场景逐渐演变出来的,能够实际的解决业务问题,但是这种整合最大的问题就是各个产品基本都覆盖了前面将了大数据从采集和分析的多个层次,导致能力重复。

我们先看传统的由BI产品架构演化的大数据平台能力,其数据采集清理转换通过ETL工具支持,ETL本身也支撑类似excel式的文件的适配和结构化转换。其数据存储层则是标准的关系型数据库,数据分析层则根据实际的维度分析需要建立数据仓库单独建模,数据分析层可以是传统的关系型数据库,也有现在的基于MPP架构的列式压缩数据库等。在整个演化的过程中增加了类似hadoop的mapreduce的并行处理能力,加入了更多的对noSQL数据库的支持等。以解决数据规模和实时数据查询的问题。

对于基于Hive架构的数据分析工具,我们看到其基本有完善的一套数据采集,数据存储,数据处理和数据分析的框架。如数据采集引入了flume采集工具加强对非结构化文件和流数据采集,对于数据存储可使用mysql存储元数据,hbase存储实际业务数据,基于mapreduce实现并行处理,同时增加了hql语言实现常用的数据分析查询,基本又是完整的一套。

前段时间看实时流处理引擎,包括storm或s4等,又可以看到基本又是独立的一套,有自己的流数据采集和适配,有类似于mapreduce的并行处理能力和引擎,有自己的分布式集群拓展方式,完成对流数据的端到端管理。整个流处理引擎来说相对独成体系,感觉又很难和其它产品进行很好的融合。

根据上面谈到,在构建大数据平台的时候可以考虑两个核心的架构维度。一个就是横向的分层架构,即包括数据采集和集成,数据存储,数据处理,数据分析;一个就是纵向的子产品类维度,包括传统的BI,Hive类数据分析产品,实时流处理等。实际上我更加希望的是前面一种横向分层的架构维度,以实现各层能力的充分共享问题,在采用这种方式的时候就需要对已有的各个子产品的各层能力完全分层剥离,然后再根据纵向业务需求和应用场景的需求进行整合,这本身是否可行也需要进一步论证。

在整个过程中我们可以首先考虑的就是数据采集和适配的剥离,mapreduce并行处理框架和算法包能力的剥离,数据任务监控和调度的剥离,数据集成的剥离,共享数据能力层的构建;然后再来考虑进一步的能力组装和整合。否则很可能我们拿出来的大数据平台仅仅是各个子产品功能的堆砌,相当来说还是一盘散沙,无法整合。

  青春就应该这样绽放   游戏测试:三国时期谁是你最好的兄弟!!   你不得不信的星座秘密

相关 [大数据 架构 维度] 推荐:

谈大数据-架构维度

- - 人月神话的BLOG
本篇作为在构思大数据平台架构时候维度方面的简单点滴思考记录. 前面关于大数据平台架构的核心功能的时候谈到过,基本应该包括数据采集和集成,数据存储,数据处理,数据分析这些核心层面. 我在前面谈大数据平台的时候也谈到过平台不仅仅是云和分布式相关技术的引入,其架构一方面和传统的BI相似,但是更加重要的则是对外部应用涉及到大数据的应用场景的支撑和大数据平台本身的大数据服务能力的开放问题.

大数据Lambda架构

- - CSDN博客云计算推荐文章
1 Lambda架构介绍.          Lambda架构划分为三层,分别是批处理层,服务层,和加速层. 最终实现的效果,可以使用下面的表达式来说明. 1.1 批处理层(Batch Layer, Apache Hadoop).          批处理层主用由Hadoop来实现,负责数据的存储和产生任意的视图数据.

大数据架构hadoop

- - CSDN博客云计算推荐文章
摘要:Admaster数据挖掘总监 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求. 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求.

典型的大数据架构

- - 数据库 - ITeye博客
“任何数据架构由主要的四个逻辑组件组成:”. “我不认为这是一个大数据架构的蓝图. 但这样一个图能给你一个关于可能包含的组件的大致的想法. 然后对工程师让事情变得简单,你开始在每个等级上添加需求,约束,和服务等级协议(SLAS Service-level agreement). 一旦你有了关于事情该怎么看的某种想法,你开始建立它并发现你将用到的一些组件不能很好的在一起工作,或者根本没有办法达到这些服务等级协议.

大数据架构和模式(一)——大数据分类和架构简介

- - 博客园_知识库
    大数据架构和模式(二)——如何知道一个大数据解决方案是否适合您的组织.     大数据架构和模式(三)——理解大数据解决方案的架构层.     大数据架构和模式(四)——了解用于大数据解决方案的原子模式和复合模式.     大数据架构和模式(五)——对大数据问题应用解决方案模式并选择实现它的产品.

企业架构-分层和维度

- - 人月神话的BLOG
在企业架构思考中,价值链一定是一个核心的维度,价值链展开包括核心的企业业务线条,如包括内部,外部物流,产品研发,生产制造,市场,销售,售后等核心业务价值链,也包括人力,财务,综合,安全等支持业务线条. 在从业务到IT转换过程中,一般涉及到概念,逻辑,物理三个阶段,也是从业务规划到建设实施落地的过程,这个也是我们在分析核心的架构域的时候必须考虑的内容,包括业务,应用,数据各个方面基本都会涉及到这三个方面的内容.

大数据架构和模式(三)——理解大数据解决方案的架构层

- - 博客园_知识库
  这个 “大数据架构和模式” 系列的. 第 2 部分 介绍了一种评估大数据解决方案可行性的基于维度的方法. 如果您已经使用上一篇文章中的问题和提示分析了自己的情况,并且已经决定开始构建新的(或更新现有的)大数据解决方案,那么下一步就是识别定义项目的大数据解决方案所需的组件.   大数据解决方案的逻辑层.

大数据下的数据分析平台架构

- vento - 《程序员》杂志官网
随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求. 作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”. 多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上.