数据仓库系列之ETL中常见的增量抽取方式 - 简书

- -

为了实现数据仓库中的更加高效的数据处理，今天和小黎子一起来探讨ETL系统中的增量抽取方式. 增量抽取是数据仓库ETL(数据的抽取（extraction）、转换（transformation）和装载（loading）)实施过程中需要重点考虑的问题. ETL抽取数据的过程中，增量抽取的效率和可行性是决定ETL实施成败的关键问题之一，做过数据建模的小伙伴都知道ETL中的增量更新机制比较复杂，采用何种机制往往取决于源数据系统的类型以及对增量更新性能的要求.

基于Hadoop生态圈的数据仓库实践 —— ETL（一）

- - CSDN博客推荐文章

一、使用Sqoop抽取数据. Sqoop是一个在Hadoop与结构化数据存储（如关系数据库）之间高效传输大批量数据的工具. 它在2012年3月被成功孵化，现在已是Apache的顶级项目. Sqoop有Sqoop1和Sqoop2两代，Sqoop1最后的稳定版本是1.4.6，Sqoop2最后版本是1.99.6.

数据仓库项目中的数据建模和ETL日志体系 - ThoughtWorks洞见

- -

对于一个软件来说，分为功能需求和跨功能需求（Cross-Functional Requirements, CFR）. 功能需求，一般是我们可以看见的，就是实现了什么功能，提供了什么服务. 而跨功能需求，是隐性的，容易被忽略，通常被称为非功能需求(Non-Functional Requirements, NFR）.

数据仓库系列之元数据管理 - 简书

- -

元数据（Meta Data），主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态. 一般会通过元数据资料库（Metadata Repository）来统一地存储和管理元数据，其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致. 元数据是数据仓库管理系统的重要组成部分，元数据管理是企业级数据仓库中的关键组件，贯穿了数据仓库的整个生命周期，使用元数据驱动数据仓库的开发，使数据仓库自动化，可视化.

数据仓库

- Ran - Linux@SOHU

翻译：马少兵、曾怀东、朱翊然、林业. 尽管服务器存储、处理能力得到有效的提高，以及服务器价格的降低，让人们能够负担起大量的服务器，但是商业软件应用和监控工具快速的增加，还是使得人们被大量的数据所困扰. 在数据仓库领域中的许多系统管理员、应用开发者，以及初级数据库管理员发现，他们正在处理“海量数据”-不管你准备与否-都会有好多不熟悉的术语，概念或工具.

数据仓库系列之数据质量管理 - 黄昏前黎明后 - 博客园

- -

数据质量一直是数据仓库领域一个比较令人头疼的问题，因为数据仓库上层对接很多业务系统，业务系统的脏数据，业务系统变更，都会直接影响数据仓库的数据质量. 因此数据仓库的数据质量建设是一些公司的重点工作. 　　数据质量的高低代表了该数据满足数据消费者期望的程度，这种程度基于他们对数据的使用预期. 数据质量必须是可测量的，把测量的结果转化为可以理解的和可重复的数字，使我们能够在不同对象之间和跨越不同时间进行比较.

ETL概述(原创)

- - ITeye博客

ETL，Extraction- Transformation-Loading的缩写，即数据抽取（Extract）、转换（Transform）、装载（Load）的过程，它是构建数据仓库的重要环节. ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据.

数据仓库概念

- - 互联网 - ITeye博客

数据仓库：是一个数据库环境，它提供用户用于决策支持的当前和历史数据，这些数据在传统的数据库中不方便得到. 特点：面向主题，集成的，相对稳定的，反应历史变化的. 组成：数据仓库的数据库，数据抽取工具，元数据，访问工具，数据集市，数据仓库管理，信息发布系统. 数据挖掘：就是从大量数据中获取有效的，新颖的，潜在有用的，最终可理解的模式的过程.

大数据仓库－kudu

- - 数据库 - ITeye博客

数据仓库里面存储引擎是非常重要的，存储引擎的好坏，基本决定了整个数仓的基础. cloudera公司最近发布了一个kudu存储引擎. 按照cloudera的想法，kudu的出现是为了解决，hbase,parquet不能兼顾分析和更新的需求，所以需要一个新的存储引擎可以同时支持高吞吐的分析应用以及少量更新的应用.

美图离线ETL实践

- - SegmentFault 最新的文章

美图收集的日志需要通过 ETL 程序清洗、规整，并持久化地落地于 HDFS / Hive，便于后续的统一分析处理. ETL 即 Extract-Transform-Load，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程. ETL 一词较常用在数据仓库，但其对象并不限于数据仓库.

数据仓库系列之ETL中常见的增量抽取方式 - 简书

一、增量抽取的机制

1 、基于触发器方式生成增量数据

2 、基于时间戳方式生成增量数据

3、基于全表比对方式生成增量数据

4 、基于日志表方式生成增量数据

二、比较和分析

三、总结

相关 [数据仓库系列 etl] 推荐：