数据仓库概念

标签: 数据仓库 概念 | 发表时间:2013-12-04 23:33 | 作者:handawei
出处:http://www.iteye.com

 笔记

 

数据仓库与数据挖掘笔记

 

 

相关概念

 

数据仓库:是一个数据库环境,它提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中不方便得到。

 

特点:面向主题,集成的,相对稳定的,反应历史变化的。

 

组成:数据仓库的数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统。

 

数据挖掘:就是从大量数据中获取有效的,新颖的,潜在有用的,最终可理解的模式的过程。

 

数据挖掘的分析方法: 

 

直接数据挖掘:利用可用的数据建立模型,用模型对剩余的数据进行描述,包括分类,估值,预言等分析方法。

 

见解数据挖掘:没有选出具体变量并用模型进行描述,而是在搜有的变量中建立起关系,如相关性分组,关联规则,聚集,描述和可视化及复杂数据来兴的挖掘。

 

数据仓库和数据挖掘的关系:矿井和挖矿的关系。

 

 

事务处理分类

 

OLTP   联机事务处理。

 

OLAP   联机事务分析。

 

数据仓库技术

 

OLAP相关主要概念

 

多维数据集:联机分析处理的主要对象,它是一个由一组维度和度量值定义的多维结构的集合。

 

  

 

维度:一组数据的属性,(面向对象中对象的属性,数据表中的列)。但是维可能是抽象的,比如时间维可能是对象中年,月,日,属性的合体。

 

  

 

度量值:就是维度属性的值。

 

  

 

多维分析:把多维数据,用切片,切块,钻取,旋转等分析方法剖析数据,使用户从不同的角度来观察数据。

 

1)              钻取:向上钻取,向下钻取,交叉钻取,钻透。向上钻取:比如现在查看的是年月维度的数据,向上钻取就是现在要查看以年维度的数据。

 

2)              切片和切块:在一部分维上选定值后,度量值在剩余维的分布,两维是切片,三维是切块。

 

3)              旋转:变换维的方向,行列互换。

 

OLAP技术:使分析人员,管理人员,或执行人员能够从多角度对信息进行快速,一致交互存取,进而获得对数据深入了解的技术。

 

OLAP分类

 

        ROALP    基于关系数据库

 

        MOLAP   基于独立多维数据集

 

        HOLAP   混合方式

 

工具:通过多维方式对数据进行分析,查询,报表的工具。

 

数据仓库实施的关键环节和技术

 

数据抽取:数据从联机事务系统,外部数据源,脱机的数据存储介质中导入数据仓库。

 

数据存储:数量大,并行处理,查询优化。(B树索引对重复度很高的列作用不大,位图索引将以二进制表示字段的状态,将查询变为筛选),支持多维查询。多维数据库,星形模型(目前主流和前景广阔)

 

数据表现:多维分析,统计分析,数据挖掘。

 

数据仓库实施方法

 

   常用产品:

 

              Molap:cognos,essbase,

 

              Rolap:oracle(discoverer,express,reports)  微软(sql server analysis services,sql server integration services,sql server reporting services) IBM(db2 olap server)

 

 

 

数据仓库系统的体系结构

 

数据源:数据的来源

 

数据存储与管理:把数据进行抽取,清理,有效的集成,按照主题重新组织,最终确定数据仓库的存储结构。同时组织存储数据仓库的元数据。

 

Olap服务器:ROLAP基本数据和聚合数据放在RDBMS之中, MOLAP:基础数据和聚合数据放在多维数据集中。HOLAP:基础数据放在 RDBMS中,聚合数据放在多维数据集中。

 

前端工具与应用:数据分析针对OLAP服务器,报表,挖掘也可针对数据仓库。

 

两层架构

 

独立数据集市

 

依赖型数据集市和操作性数据存储

 

逻辑性数据集市和实时数据仓库

 

独立的数据仓库体系结构

 

由源数据库(内部外部)===》经过抽取清洗,调和,导出  到达 ==》数据集结区===》加载===》数据仓库(唯一的企业级的数据仓库)===》填充====》数据展示:查询工具,报表工具,建模与挖掘工具。

 

其中抽取转换加载称为ETL过程。

 

基于数据集市的数据仓库体系结构

 

 

 

基于依赖性数据集市和操作性数据存储的数据仓库体系结构

 

 

 

 

 

基于逻辑性数据集市和实时数据仓库的体系结构  

 

  

 

 





已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [数据仓库 概念] 推荐:

数据仓库概念

- - 互联网 - ITeye博客
数据仓库:是一个数据库环境,它提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中不方便得到. 特点:面向主题,集成的,相对稳定的,反应历史变化的. 组成:数据仓库的数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统. 数据挖掘:就是从大量数据中获取有效的,新颖的,潜在有用的,最终可理解的模式的过程.

数据仓库

- Ran - [email protected]
翻译:马少兵、曾怀东、朱翊然、林业. 尽管服务器存储、处理能力得到有效的提高,以及服务器价格的降低,让人们能够负担起大量的服务器,但是商业软件应用和监控工具快速的增加,还是使得人们被大量的数据所困扰. 在数据仓库领域中的许多系统管理员、应用开发者,以及初级数据库管理员发现,他们正在处理“海量数据”-不管你准备与否-都会有好多不熟悉的术语,概念或工具.

大数据仓库-kudu

- - 数据库 - ITeye博客
数据仓库里面存储引擎是非常重要的,存储引擎的好坏,基本决定了整个数仓的基础. cloudera公司最近发布了一个kudu存储引擎. 按照cloudera的想法,kudu的出现是为了解决,hbase,parquet不能兼顾分析和更新的需求,所以需要一个新的存储引擎可以同时支持高吞吐的分析应用以及少量更新的应用.

数据仓库的设计与开发

- - 数据库 - ITeye博客
     数据仓库系统的设计与开发. 1)       收集和分析业务需求.   用户需求,管理人员需求. 2)       建立数据模型和数据仓库的物理设计.   概念模型,逻辑模型,物理模型. 3)       定义数据源. 数据源面向应用,不是面向主题,而且数据源之间存在多个不一致的情况,所以必须在已有的系统中定义记录系统(内容正确,在多个数据源间起决定作用的操作型数据源).

oracle数据仓库设计指南

- - 数据库 - ITeye博客
ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据.     一般在带有ODS的系统体系结构中,ODS都设计为如下几个作用:. 1 )    在业务系统和数据仓库之间形成一个隔离层.

[原]数据仓库元数据管理

- - oycn2010的专栏
元数据管理, 简单的做就是EXCEL结合版本管理等传统工具管理, 专业点就用专门的元数据管理工具;. 数据字典--> 数据知识库. 业务元数据,技术元数据,管理元数据. 参照:SAP元数据管理平台:按业务(角色)分类,按技术类型分类(特征,关键值,DSO,InfoCube),数据流程图. 按照传统的定义,元数据(Metadata)是关于数据的数据.

[原]数据仓库构建步骤

- - oycn2010的专栏
 即确定数据分析或前端展现的主题(例:某年某月某地区的啤酒销售情况). 主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系,确定主题时要综合考虑..  确定主题后,需要考虑分析的技术指标(例:年销售额等等). 它们一般为数据值型数据,其中有些度量值不可以汇总;些可以汇总起来,以便为分析者提供有用的信息.

数据仓库事实表分类

- - 行业应用 - ITeye博客
1)在数据仓库领域有一个概念叫Transaction fact table,中文一般翻译为“事务事实表”. 事务事实表是维度建模的数据仓库中三种基本类型事实表中的一种,另外两种分别是周期快照事实表和累积快照事实表. 事务事实表与周期快照事实表、累积快照事实表使用相同的一致性维度,但是它们在描述业务事实方面是有着非常大的差异的.

数据仓库的架构与设计

- - CSDN博客推荐文章
公司之前的数据都是直接传到Hdfs上进行操作,没有一个数据仓库,趁着最近空出几台服务器,搭了个简陋的数据仓库,这里记录一下数据仓库的一些知识. 数据仓库多维数据模型的设计. 数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持. 这个定义的确官方,但是却指出了数据仓库的四个特点.

IBM开建世界最大数据仓库

- 疯癫二楞子 - 译言-电脑/网络/数码科技
来源IBM Builds Biggest Data Drive Ever - Technology Review. IBM开建迄今为止最大数据驱动. 该系统能够详细模拟现实世界现象--或存储240亿首MP3歌曲. 2011年8月25日星期四,汤姆 西蒙尼特提供. A data repository almost 10 times bigger than any made before is being built by researchers at IBM's Almaden, California, research lab.