漫谈数据仓库之拉链表（原理、设计以及在Hive中的实现）

注册日期	用户编号	手机号码	t_start_date	t_end_date
2017-01-01	001	111111	2017-01-01	9999-12-31
2017-01-01	002	222222	2017-01-01	2017-01-01
2017-01-01	002	233333	2017-01-02	9999-12-31
2017-01-01	003	333333	2017-01-01	9999-12-31
2017-01-01	004	444444	2017-01-01	2017-01-01
2017-01-01	004	432432	2017-01-02	2017-01-02
2017-01-01	004	432432	2017-01-03	9999-12-31
2017-01-02	005	555555	2017-01-02	2017-01-02
2017-01-02	005	115115	2017-01-03	9999-12-31
2017-01-03	006	666666	2017-01-03	9999-12-31

注册日期	用户编号	手机号码
2017-01-01	001	111111
2017-01-01	002	222222
2017-01-01	003	333333
2017-01-01	004	444444

注册日期	用户编号	手机号码	备注
2017-01-01	001	111111
2017-01-01	002	233333	（由222222变成233333）
2017-01-01	003	333333
2017-01-01	004	432432	（由444444变成432432）
2017-01-02	005	555555	（2017-01-02新增）

注册日期	用户编号	手机号码	备注
2017-01-01	001	111111
2017-01-01	002	233333
2017-01-01	003	333333
2017-01-01	004	654321	（由432432变成654321）
2017-01-02	005	115115	（由555555变成115115）
2017-01-03	006	666666	（2017-01-03新增）

注册日期	用户编号	手机号码	t_start_date	t_end_date
2017-01-01	001	111111	2017-01-01	9999-12-31
2017-01-01	002	222222	2017-01-01	2017-01-01
2017-01-01	002	233333	2017-01-02	9999-12-31
2017-01-01	003	333333	2017-01-01	9999-12-31
2017-01-01	004	444444	2017-01-01	2017-01-01
2017-01-01	004	432432	2017-01-02	2017-01-02
2017-01-01	004	654321	2017-01-03	9999-12-31
2017-01-02	005	555555	2017-01-02	2017-01-02
2017-01-02	005	115115	2017-01-03	9999-12-31
2017-01-03	006	666666	2017-01-03	9999-12-31

- - IT瘾-bigdata

本文将会谈一谈在数据仓库中拉链表相关的内容，包括它的原理、设计、以及在我们大数据场景下的实现方式. 先分享一下拉链表的用途、什么是拉链表. 通过一些小的使用场景来对拉链表做近一步的阐释，以及拉链表和常用的切片表的区别. 举一个具体的应用场景，来设计并实现一份拉链表，最后并通过一些例子说明如何使用我们设计的这张表（因为现在Hive的大规模使用，我们会以Hive场景下的设计为例）.

数据仓库

- Ran - Linux@SOHU

翻译：马少兵、曾怀东、朱翊然、林业. 尽管服务器存储、处理能力得到有效的提高，以及服务器价格的降低，让人们能够负担起大量的服务器，但是商业软件应用和监控工具快速的增加，还是使得人们被大量的数据所困扰. 在数据仓库领域中的许多系统管理员、应用开发者，以及初级数据库管理员发现，他们正在处理“海量数据”-不管你准备与否-都会有好多不熟悉的术语，概念或工具.

数据仓库概念

- - 互联网 - ITeye博客

数据仓库：是一个数据库环境，它提供用户用于决策支持的当前和历史数据，这些数据在传统的数据库中不方便得到. 特点：面向主题，集成的，相对稳定的，反应历史变化的. 组成：数据仓库的数据库，数据抽取工具，元数据，访问工具，数据集市，数据仓库管理，信息发布系统. 数据挖掘：就是从大量数据中获取有效的，新颖的，潜在有用的，最终可理解的模式的过程.

大数据仓库－kudu

- - 数据库 - ITeye博客

数据仓库里面存储引擎是非常重要的，存储引擎的好坏，基本决定了整个数仓的基础. cloudera公司最近发布了一个kudu存储引擎. 按照cloudera的想法，kudu的出现是为了解决，hbase,parquet不能兼顾分析和更新的需求，所以需要一个新的存储引擎可以同时支持高吞吐的分析应用以及少量更新的应用.

数据仓库的设计与开发

- - 数据库 - ITeye博客

数据仓库系统的设计与开发. 1) 收集和分析业务需求. 用户需求，管理人员需求. 2) 建立数据模型和数据仓库的物理设计. 概念模型，逻辑模型，物理模型. 3) 定义数据源. 数据源面向应用，不是面向主题，而且数据源之间存在多个不一致的情况，所以必须在已有的系统中定义记录系统（内容正确，在多个数据源间起决定作用的操作型数据源）.

oracle数据仓库设计指南

- - 数据库 - ITeye博客

ODS（Operational Data Store）是数据仓库体系结构中的一个可选部分，ODS具备数据仓库的部分特征和OLTP系统的部分特征，它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据. 一般在带有ODS的系统体系结构中，ODS都设计为如下几个作用：. 1 ）在业务系统和数据仓库之间形成一个隔离层.

[原]数据仓库元数据管理

- - oycn2010的专栏

元数据管理, 简单的做就是EXCEL结合版本管理等传统工具管理, 专业点就用专门的元数据管理工具;. 数据字典--> 数据知识库. 业务元数据，技术元数据，管理元数据. 参照：SAP元数据管理平台：按业务（角色）分类，按技术类型分类（特征，关键值，DSO,InfoCube），数据流程图. 按照传统的定义，元数据（Metadata）是关于数据的数据.

[原]数据仓库构建步骤

- - oycn2010的专栏

即确定数据分析或前端展现的主题(例:某年某月某地区的啤酒销售情况). 主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系,确定主题时要综合考虑.. 确定主题后，需要考虑分析的技术指标(例:年销售额等等). 它们一般为数据值型数据，其中有些度量值不可以汇总；些可以汇总起来，以便为分析者提供有用的信息.

数据仓库事实表分类

- - 行业应用 - ITeye博客

1）在数据仓库领域有一个概念叫Transaction fact table，中文一般翻译为“事务事实表”. 事务事实表是维度建模的数据仓库中三种基本类型事实表中的一种，另外两种分别是周期快照事实表和累积快照事实表. 事务事实表与周期快照事实表、累积快照事实表使用相同的一致性维度，但是它们在描述业务事实方面是有着非常大的差异的.

数据仓库的架构与设计

- - CSDN博客推荐文章

公司之前的数据都是直接传到Hdfs上进行操作，没有一个数据仓库，趁着最近空出几台服务器，搭了个简陋的数据仓库，这里记录一下数据仓库的一些知识. 数据仓库多维数据模型的设计. 数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合，用于对管理决策过程的支持. 这个定义的确官方，但是却指出了数据仓库的四个特点.

漫谈数据仓库之拉链表（原理、设计以及在Hive中的实现）

0x00 前言

0x01 什么是拉链表

拉链表的使用场景

为什么使用拉链表

0x02 拉链表的设计和实现

如何设计一张拉链表

在Hive中实现拉链表

0x03 补充

拉链表和流水表

查询性能

0xFF 总结

相关 [数据仓库链表原理] 推荐：