携程机票数据仓库建设之路

- - IT瘾-dev

华智，携程高级研发经理，现负责数据仓库技术架构、性能优化、数仓规范制定、数据模型设计以及数据应用开发. 随着大数据技术的飞速发展，海量数据存储和计算的解决方案层出不穷，生产环境和大数据环境的交互日益密切. 数据仓库作为海量数据落地和扭转的重要载体，承担着数据从生产环境到大数据环境、经由大数据环境计算处理回馈生产应用或支持决策的重要角色.

数据仓库

- Ran - Linux@SOHU

翻译：马少兵、曾怀东、朱翊然、林业. 尽管服务器存储、处理能力得到有效的提高，以及服务器价格的降低，让人们能够负担起大量的服务器，但是商业软件应用和监控工具快速的增加，还是使得人们被大量的数据所困扰. 在数据仓库领域中的许多系统管理员、应用开发者，以及初级数据库管理员发现，他们正在处理“海量数据”-不管你准备与否-都会有好多不熟悉的术语，概念或工具.

数据仓库概念

- - 互联网 - ITeye博客

数据仓库：是一个数据库环境，它提供用户用于决策支持的当前和历史数据，这些数据在传统的数据库中不方便得到. 特点：面向主题，集成的，相对稳定的，反应历史变化的. 组成：数据仓库的数据库，数据抽取工具，元数据，访问工具，数据集市，数据仓库管理，信息发布系统. 数据挖掘：就是从大量数据中获取有效的，新颖的，潜在有用的，最终可理解的模式的过程.

大数据仓库－kudu

- - 数据库 - ITeye博客

数据仓库里面存储引擎是非常重要的，存储引擎的好坏，基本决定了整个数仓的基础. cloudera公司最近发布了一个kudu存储引擎. 按照cloudera的想法，kudu的出现是为了解决，hbase,parquet不能兼顾分析和更新的需求，所以需要一个新的存储引擎可以同时支持高吞吐的分析应用以及少量更新的应用.

数据仓库的设计与开发

- - 数据库 - ITeye博客

数据仓库系统的设计与开发. 1) 收集和分析业务需求. 用户需求，管理人员需求. 2) 建立数据模型和数据仓库的物理设计. 概念模型，逻辑模型，物理模型. 3) 定义数据源. 数据源面向应用，不是面向主题，而且数据源之间存在多个不一致的情况，所以必须在已有的系统中定义记录系统（内容正确，在多个数据源间起决定作用的操作型数据源）.

oracle数据仓库设计指南

- - 数据库 - ITeye博客

ODS（Operational Data Store）是数据仓库体系结构中的一个可选部分，ODS具备数据仓库的部分特征和OLTP系统的部分特征，它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据. 一般在带有ODS的系统体系结构中，ODS都设计为如下几个作用：. 1 ）在业务系统和数据仓库之间形成一个隔离层.

[原]数据仓库元数据管理

- - oycn2010的专栏

元数据管理, 简单的做就是EXCEL结合版本管理等传统工具管理, 专业点就用专门的元数据管理工具;. 数据字典--> 数据知识库. 业务元数据，技术元数据，管理元数据. 参照：SAP元数据管理平台：按业务（角色）分类，按技术类型分类（特征，关键值，DSO,InfoCube），数据流程图. 按照传统的定义，元数据（Metadata）是关于数据的数据.

[原]数据仓库构建步骤

- - oycn2010的专栏

即确定数据分析或前端展现的主题(例:某年某月某地区的啤酒销售情况). 主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系,确定主题时要综合考虑.. 确定主题后，需要考虑分析的技术指标(例:年销售额等等). 它们一般为数据值型数据，其中有些度量值不可以汇总；些可以汇总起来，以便为分析者提供有用的信息.

数据仓库事实表分类

- - 行业应用 - ITeye博客

1）在数据仓库领域有一个概念叫Transaction fact table，中文一般翻译为“事务事实表”. 事务事实表是维度建模的数据仓库中三种基本类型事实表中的一种，另外两种分别是周期快照事实表和累积快照事实表. 事务事实表与周期快照事实表、累积快照事实表使用相同的一致性维度，但是它们在描述业务事实方面是有着非常大的差异的.

数据仓库的架构与设计

- - CSDN博客推荐文章

公司之前的数据都是直接传到Hdfs上进行操作，没有一个数据仓库，趁着最近空出几台服务器，搭了个简陋的数据仓库，这里记录一下数据仓库的一些知识. 数据仓库多维数据模型的设计. 数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合，用于对管理决策过程的支持. 这个定义的确官方，但是却指出了数据仓库的四个特点.

携程机票数据仓库建设之路

一、前言

二、携程机票数据仓库技术栈

2.1 数仓技术演进历史

2.2 当前技术栈

2.3 实时 VS 离线

三、数据仓库建设时涉及的共性问题

3.1 数据同步

3.1.1 DB同步到Hive

3.1.2 Kafka同步到Hive

3.2 数仓分层

3.3 数据解析

3.4 数仓运维工具

四、数据质量体系

4.1 元数据管理

4.2 数据质量相关因素

五、应用案例

六、小结

致谢

携程AI助力产品内容化实践

XGBoost在携程搜索排序中的应用

《携程技术2019年度合辑》，送给爱学习的你

相关 [携程机票数据仓库] 推荐：