美图离线ETL实践

- - SegmentFault 最新的文章

美图收集的日志需要通过 ETL 程序清洗、规整，并持久化地落地于 HDFS / Hive，便于后续的统一分析处理. ETL 即 Extract-Transform-Load，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程. ETL 一词较常用在数据仓库，但其对象并不限于数据仓库.

ETL概述(原创)

- - ITeye博客

ETL，Extraction- Transformation-Loading的缩写，即数据抽取（Extract）、转换（Transform）、装载（Load）的过程，它是构建数据仓库的重要环节. ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据.

CloverETL 3.5.0 发布，开源的 ETL 框架

- - 开源中国社区最新新闻

CloverETL 3.5.0 发布，此版本包括了之前两个里程碑版本的特性，更新内容如下：. 在社区版添加了 Hadoop 连接. ETL 是一切数据仓库应用的基础. CloverETL 是一个基于 Java 的开源的 ETL 框架，同时还包含了一个 ETL设计器——.

好久没更新博文，最近临近离职，事情少了，有空停下来总结总结这段时间的东西. 今天先记录下Kettle环境变量的应用. 一个好的环境变量的使用，在业务变更或者环境变动后，只需要很少工作量的修改即可完成. 我们把变量分成系统环境变量和业务变量，系统环境变量是指那些在ETL中指定的系统级资源配置，如数据库信息、日志文件路径等等，这些变量一旦设定，不会经常变动；业务变量指跟当前ETL执行处理的内容有关，如日期、产品ID等等，跟运行时有关.

【转】ETL中用到的一些基本技术概论

- - 行业应用 - ITeye博客

在公司做了几年的数据，跟数据打了不少的交道. 对软件的理解，也慢慢的偏向于对数据的流转上，虽然用户体验UI也占据着很大的地位. 之前答应过坛子里的朋友，准备写关于写金蝶的系列文章. 时间恍惚，匆匆几年就这样过去了. 如今，笔者历经几年，从一个大男孩，变成了美丽女孩的丈夫. 曾今，朋友说到：有些人写代码是为了一辈子都去写代码，也有些人写代码是为了不去写代码.

ETL工具Pentaho Kettle的transformation和job集成

- - CSDN博客推荐文章

Kettle是一款国外开源的etl工具，纯java编写，数据抽取高效稳定（数据迁移工具）. Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制. 2.1. transformation实现解析.

基于Hadoop生态圈的数据仓库实践 —— ETL（一）

- - CSDN博客推荐文章

一、使用Sqoop抽取数据. Sqoop是一个在Hadoop与结构化数据存储（如关系数据库）之间高效传输大批量数据的工具. 它在2012年3月被成功孵化，现在已是Apache的顶级项目. Sqoop有Sqoop1和Sqoop2两代，Sqoop1最后的稳定版本是1.4.6，Sqoop2最后版本是1.99.6.

日志收集:ETL,ELK以及Kafka/Redis - S.Mona

- -

其实一直都想写ELK的，毕竟在公司做了一年的日志ETL的工作，而且经历了上个世纪遗留的日志收集方案到现在流行的日志收集方案的变更，但是一直都没有找到合适的时间和机会写这一篇文章，趁着寒冬需求量下降没有那么忙碌就做了. ELK是Elastic公司的产品，elastic公司最远近闻名的就是他的ElasticSearch，这也是ELK中的’E’，其他’L’和’K’，分别是指Logstash以及Kibana.

基于CWM的ETL元数据库系统模型的设计

- -

1 引言在工业领域,数据仓库连同前端的数据挖掘工具向企业高层提供决策分析的平台体系机制被称为商业智能（Business Intelligence,BI）. BI项目的实施牵涉到企业各个事务处理系统之间海量数据的定向流动,这个数据流动的过程被称为数据抽取、转换与装载（Extraction、Transformation and Loading,ETL）,是BI系统的心脏与灵魂.

ETL之metadata (讲了pentato 的kettle 的元数据) - sunnywang - IT博客

- -

-- 商业智能平台研究：ETL之metadata. 元数据的定义就是：描述数据的数据，你非要问什么描述元数据，还是元数据本身，UML中也有这种概念，只不过是描述的对象不一样罢了. 让我们解释的更加通俗易懂一些吧，在javaSE中也有metadata的概念，最早的就算是JavaDoc了，在5.0之后，Annotation就是大量的使用metadata了，这是关于源代码的数据，具体来说就是关于Java的类、方法、字段等关联的附加数据.

美图离线ETL实践

什么是 ETL？

离线ETL的架构设计及实现原理

离线 ETL 工作流程

离线 ETL 的模块实现

ETL系统核心特征

数据补跑及其优化

自动水平扩展

相关 [美图离线 etl] 推荐：