谈大数据(2)

标签: 随笔文章 | 发表时间:2012-08-26 17:00 | 作者:人月神话
出处:http://blog.sina.com.cn/cmmi
对于大数据,后面会作为一个系列来谈,大数据涉及的方面特别多,包括主数据,数据中心和ODS,SOA,云计算,业务BI等很多方面的内容。前面看到一个提法,即大数据会让我们更加关注业务方面的内容,而云平台则更多是技术层面的内容。对于大数据会先把各个理解的关键点谈完了,再系统来看大数据的完整解决方案和体系化。

对传统BI的改进

大数据对传统BI的改进不仅仅是数据类型增加,如半结构化和非结构化数据,而更多的是实时性的改进。传统的BI方式,如果基于ETL-》ODS-》DW的思路基本无法解决BI分析的实时性问题。数据量大,海量数据传统BI就有,不是新问题。特别是结构化数据,再海量也是有一个度,非结构化数据则膨胀和存储量都很大,需要考虑数据分布式,同时数据分布式后带来的关键问题就是数据分析的实时性问题。这里的实时性不仅仅是从ODS和DW进行分析查询的速度,更多的是在业务事件产生后实时分析的速度。

对于非结构化数据,考虑的是索引数据的结构化,指标体系或计算规则的结构化,而不是所有非结构化数据的全部结构化。那么在这种模式下,传统BI的数据仓库和建模策略同样带来变化。指标体系本身并没有变化,但是从指标体系根据业务需求检索和分析数据的过程变化了。

对数据中心的影响

传统的数据中心我们已经谈到基于ODS来建立一个共享数据服务平台。ODS核心目标是建立共享数据服务,数据本身通过各种数据服务提供,数据完全开放出来不仅仅是为DW提供服务,而面向更多的业务系统。数据本身不落地而且经过转换和清洗,这是和传统的数据交换平台的差异。

ODS存放的不仅仅是MDM主数据,还包括了核心动态数据,这些动态数据的特点就是跨多个业务系统共享。这种共享和数据不落地解决的最大问题就是传统数据交换下带来的数据多点复制和不一致的问题。在谈到大数据的时候,带来的改变是大数据平台除了结构化数据外,需要包括非结构化数据等各种异构数据,那么大数据平台应该有一个共享的数据服务层,整合底层各种异构数据,提供数据共享服务。要知道用户并不关心数据的结构,也不关心数据的物理存储。

ESB总线和大数据的关系

在谈大数据的时候,ESB总线更多体现的是数据服务。对于数据采集不一定是通过ESB数据集成方式进行,但是数据服务本身的提供可以接入到ESB总线,提供统一的数据服务。大数据提供统一的大数据视图,而ESB提供大数据服务目录,提供统一的大数据目录视图。ESB不仅仅是数据集成,更多的是提供大数据服务目录库和统一服务视图。ESB在大数据整个架构体系不是必须,特别是偏重的ESB总线,这点要注意。

大数据和数据分析层次

在谈BI的时候我们会谈到数据分析的层次,包括了报表应用,专题分析,预测分析,实时反馈和动态智能几个方面的内容。对于后面两个可以作为大数据应用的高级层次。

在谈大数据的时候,很重要的一个价值就是快速,快速的响应分析并动态提供智能决策信息。在数据量大和数据结构复杂后这个问题更加难以解决。前面谈到过EDA和CEP复杂事件处理,在大数据高级层次必须要考虑,数据初始化处理无法实时,但是对于关键事件增量信息完全可以基于EDA和消息技术提供一种准实时。数据推送实时了还不够,大量数据分析还得快,两者结合才可能实现动态智能。

分析模式和分析技术的问题

我们谈大数据分析的时候将更多的关注点放在了分析技术上,如分布式存储,mapreduce分布式计算,hive数据分析聚合等。但是当谈大数据的时候,分析模式比分析技术更加重要,分析模式是面对不同的业务场景和大数据问题时最难的一个地方。

当我们逛商场或网店的时候,应该如何实时推送相关针对性营销信息?当我们监控电信运营网络的时候,如何根据采集的数据实时的诊断网络健康状况和预警?在这里面都是不同的分析模式,包括模式语言,也包括各种规则引擎,具体分析模式由于在引入了非结构化数据,考虑实时性后分析模式会出现大变化,这个后面专门来谈,但是个人感觉是大数据分析的新重点考虑内容。

  青春就应该这样绽放   游戏测试:三国时期谁是你最好的兄弟!!   你不得不信的星座秘密

相关 [大数据] 推荐:

谈大数据(2)

- - 人月神话的BLOG
对于大数据,后面会作为一个系列来谈,大数据涉及的方面特别多,包括主数据,数据中心和ODS,SOA,云计算,业务BI等很多方面的内容. 前面看到一个提法,即大数据会让我们更加关注业务方面的内容,而云平台则更多是技术层面的内容. 对于大数据会先把各个理解的关键点谈完了,再系统来看大数据的完整解决方案和体系化.

大数据之惑

- - 互联网分析
算起来,接触大数据、和互联网之外的客户谈大数据也有快2年了. 也该是时候整理下一些感受,和大家分享下我看到的国内大数据应用的一些困惑了. 云和大数据,应该是近几年IT炒的最热的两个话题了. 在我看来,这两者之间的不同就是: 云是做新的瓶,装旧的酒; 大数据是找合适的瓶,酿新的酒. 云说到底是一种基础架构的革命.

白话大数据

- - 互联网分析
这个时代,你在外面混,无论是技术还是产品还是运营还是商务,如果嘴里说不出“大数据”“云存储”“云计算”,真不好意思在同行面前抬头. 是千万级别的用户信息还是动辄XXXTB的数据量. 其实,大数据在我的眼里,不是一门技术,而是一种技能,从数据中去发现价值挖掘价值的技能. ”当我掷地有声用这句话开场时,正好一个妹子推门而入,听到这句话,微微一怔,低头坐下.

交通大数据

- - 人月神话的BLOG
本文简单谈下智慧交通场景下可能出现的大数据需求和具体应用价值. 对于公交线路规划和设计是一个大数据潜在的应用场景,传统的公交线路规划往往需要在前期投入大量的人力进行OD调查和数据收集. 特别是在公交卡普及后可以看到,对于OD流量数据完全可以从公交一卡通中采集到相关的交通流量和流向数据,包括同一张卡每天的行走路线和换乘次数等详细信息.

全球10大数据库

- - 译言-电脑/网络/数码科技
原文: Fiorenttini   译者: julie20098. [非商业性转载必须注明译者julie20098和相关链接. ,否则视为侵权,追究转载责任. 世界气候数据中心:气候全球数据中心, 220TB 的网络数据, 6PB 的其它数据. 国家能源研究科学计算中心,有 2.8PB 容量.

谈大数据分析

- - 人月神话的BLOG
对于数据分析层,我们可以看到,其核心重点是针对海量数据形成一个分布式可弹性伸缩的,高查询性能的,支持标准sql语法的一个ODS库. 我们看到对于Hive,impala,InfoBright更多的都是解决这个层面的问题,即解决数据采集问题,解决采集后数据行列混合存储和压缩的问题,然后形成一个支撑标准sql预防的数据分析库.

大数据的一致性

- - 阳振坤的博客
看到了一篇关于数据一致性的文章:下一代NoSQL:最终一致性的末日. (  http://www.csdn.net/article/2013-11-07/2817420 ),其中说到: 相比关系型数据库,NoSQL解决方案提供了shared-nothing、容错和可扩展的分布式架构等特性,同时也放弃了关系型数据库的强数据一致性和隔离性,美其名曰:“最终一致性”.

大数据Lambda架构

- - CSDN博客云计算推荐文章
1 Lambda架构介绍.          Lambda架构划分为三层,分别是批处理层,服务层,和加速层. 最终实现的效果,可以使用下面的表达式来说明. 1.1 批处理层(Batch Layer, Apache Hadoop).          批处理层主用由Hadoop来实现,负责数据的存储和产生任意的视图数据.

大数据公司Amazon

- - 36氪 | 关注互联网创业
说到 Amazon,它通常给人的印象是一家典型的电商公司——创办于1995年,靠在线书籍销售业务起家,发展至今也已颇具规模. 近日,TechCrunch作者Alex Williams撰文称,Amazon其实并非一家贸易公司,而是一家大数据公司. 联想到Amazon CEO Jeff Bezos曾说过的一句话:“企业家应该愿意在很长一段时间内承受误解的目光.

大数据架构hadoop

- - CSDN博客云计算推荐文章
摘要:Admaster数据挖掘总监 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求. 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求.