基于Flink构建实时数仓实践

美团点评基于 Flink 的实时数仓建设实践

- - 美团点评技术团队

近些年，企业对数据服务实时化服务的需求日益增多. 本文整理了常见实时数据组件的性能特点和适用场景，介绍了美团如何通过 Flink 引擎构建实时数据仓库，从而提供高效、稳健的实时数据服务. 此前我们美团技术博客发布过一篇文章《流计算框架 Flink 与 Storm 的性能对比》，对 Flink 和 Storm 俩个引擎的计算性能进行了比较.

基于Flink构建实时数仓实践

- -

随着公司用户增长业务快速发展，陆续孵化出部落、同镇、C 端会员、游戏等非常多的业务板块. 与此同时产品及运营对实时数据需求逐渐增多，帮助他们更快的做出决策，更好的进行产品迭代，实时数仓的建设变得越发重要起来. 本文主要介绍用户增长业务基于 Flink 构建实时数仓的实践之路. 如下图是早期的实时计算架构，实时数据需求较少，架构简单，数据链路少，一路到底的开发模式能很快满足业务需求；.

实时计算框架 Flink 在教育行业的应用实践

- - U刻

如今，越来越多的业务场景要求 OLTP 系统能及时得到业务数据计算、分析后的结果，这就需要实时的流式计算如 Flink 等来保障. 例如，在 TB 级别数据量的数据库中，通过 SQL 语句或相关 API 直接对原始数据进行大规模关联、聚合操作，是无法做到在极短的时间内通过接口反馈到前端进行展示的. 若想实现大规模数据的 “即席查询”，就须用实时计算框架构建实时数仓来实现.

维度数据实时关联的实践（w/ Flink、Vert.x & Guava Cache） - 简书

- -

在流式处理作业（特别是实时数仓ETL作业）中，我们的数据流可以视为无界事实表，其中往往缺乏一些维度信息. 例如，对于埋点日志流而言，为了减少传输冗余，可能只会带有城市ID、商品ID等，如果要映射到对应的名称，就需要与外部存储中的维度表进行关联. 这里的外部存储一般是指适合OLTP场景的数据库，如MySQL、Redis、HBase等.

Flink SQL 编程实践

- - Jark's Blog

注：本教程实践基于 Ververica 开源的. sql-training 项目. 基于 Flink 1.7.2. 本文将通过五个实例来贯穿 Flink SQL 的编程实践，主要会涵盖以下几个方面的内容. 如何使用 SQL CLI 客户端. 如何在流上运行 SQL 查询. 运行 window aggregate 与 non-window aggregate，理解其区别.

Flink在唯品会的实践

- - DockOne.io

唯品会自2017年开始基于Kubernetes深入打造高性能、稳定、可靠、易用的实时计算平台，支持唯品会内部业务在平时以及大促的平稳运行. 现平台支持Flink、Spark、Storm等主流框架. 本文主要分享Flink的容器化实践应用以及产品化经验. 平台支持公司内部所有部门的实时计算应用. 主要的业务包括实时大屏，推荐，实验平台，实时监控和实时数据清洗等.

flink-watermark

- - ITeye博客

当我们统计用户点击的时候，有时候会因为各种情况数据延迟，我们需要一个允许最大的延迟范围进行统计. 模拟初始数据：早上10:00 11.10 用户点击了一次，但是延迟到10:00 11.15 才发送过来，允许最大延迟5秒， 5秒窗口统计. /** 实际时间-偏移量偏移后的时间*/.

基于 Flink SQL CDC 的实时数据同步方案 (developer.aliyun.com)

- - IT瘾-jianshu

整理：陈政羽（Flink 社区志愿者）. Flink 1.11 引入了 Flink SQL CDC，CDC 能给我们数据和业务间能带来什么变化. 本文由 Apache Flink PMC，阿里巴巴技术专家伍翀 (云邪）分享，内容将从传统的数据同步方案，基于 Flink CDC 同步的解决方案以及更多的应用场景和 CDC 未来开发规划等方面进行介绍和演示.

用Flink SQL CDC + ES实现数据实时化真香！

- -

本人目前参与的项目属于公司里面数据密集、计算密集的一个重要项目，需要提供高效且准确的 OLAP 服务，提供灵活且实时的报表. 业务数据存储在 MySQL 中，通过主从复制同步到报表库. 作为集团级公司，数据增长多而且快，出现了多个千万级、亿级的大表. 为了实现各个维度的各种复杂的报表业务，有些千万级大表仍然需要进行 Join，计算规模非常惊人，经常不能及时响应请求.

Flink 如何实时分析 Iceberg 数据湖的 CDC 数据

- - 掘金后端

本文由李劲松、胡争分享，社区志愿者杨伟海、李培殿整理. 主要介绍在数据湖的架构中，CDC 数据实时读写的方案和原理. 文章主要分为 4 个部分内容：. 常见的 CDC 分析方案. 为何选择 Flink + Iceberg. 一、常见的 CDC 分析方案. 我们先看一下今天的 topic 需要设计的是什么.

基于Flink构建实时数仓实践

三：实现方案

相关 [flink 实时实践] 推荐：

美团点评基于 Flink 的实时数仓建设实践