Flink 如何实时分析 Iceberg 数据湖的 CDC 数据

- - 掘金后端

本文由李劲松、胡争分享，社区志愿者杨伟海、李培殿整理. 主要介绍在数据湖的架构中，CDC 数据实时读写的方案和原理. 文章主要分为 4 个部分内容：. 常见的 CDC 分析方案. 为何选择 Flink + Iceberg. 一、常见的 CDC 分析方案. 我们先看一下今天的 topic 需要设计的是什么.

趣头条基于Flink+ClickHouse打造实时数据分析平台

- -

趣头条一直致力于使用大数据分析指导业务发展. 目前在实时化领域主要使用 Flink+ClickHouse 解决方案，覆盖场景包括实时数据报表、Adhoc 即时查询、事件分析、漏斗分析、留存分析等精细化运营策略，整体响应 80% 在 1 秒内完成，大大提升了用户实时取数体验，推动业务更快迭代发展. Flink to Hive 的小时级场景.

flink-watermark

- - ITeye博客

当我们统计用户点击的时候，有时候会因为各种情况数据延迟，我们需要一个允许最大的延迟范围进行统计. 模拟初始数据：早上10:00 11.10 用户点击了一次，但是延迟到10:00 11.15 才发送过来，允许最大延迟5秒， 5秒窗口统计. /** 实际时间-偏移量偏移后的时间*/.

Apache Flink：特性、概念、组件栈、架构及原理分析

- - 简单之美

Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，它能够基于同一个Flink运行时（Flink Runtime），提供支持流处理和批处理两种类型应用的功能. 现有的开源计算方案，会把流处理和批处理作为两种不同的应用类型，因为他们它们所提供的SLA是完全不相同的：流处理一般需要支持低延迟、Exactly-once保证，而批处理需要支持高吞吐、高效处理，所以在实现的时候通常是分别给出两套实现方法，或者通过一个独立的开源框架来实现其中每一种处理方案.

美团点评基于 Flink 的实时数仓建设实践

- - 美团点评技术团队

近些年，企业对数据服务实时化服务的需求日益增多. 本文整理了常见实时数据组件的性能特点和适用场景，介绍了美团如何通过 Flink 引擎构建实时数据仓库，从而提供高效、稳健的实时数据服务. 此前我们美团技术博客发布过一篇文章《流计算框架 Flink 与 Storm 的性能对比》，对 Flink 和 Storm 俩个引擎的计算性能进行了比较.

基于 Flink SQL CDC 的实时数据同步方案 (developer.aliyun.com)

- - IT瘾-jianshu

整理：陈政羽（Flink 社区志愿者）. Flink 1.11 引入了 Flink SQL CDC，CDC 能给我们数据和业务间能带来什么变化. 本文由 Apache Flink PMC，阿里巴巴技术专家伍翀 (云邪）分享，内容将从传统的数据同步方案，基于 Flink CDC 同步的解决方案以及更多的应用场景和 CDC 未来开发规划等方面进行介绍和演示.

用Flink SQL CDC + ES实现数据实时化真香！

- -

本人目前参与的项目属于公司里面数据密集、计算密集的一个重要项目，需要提供高效且准确的 OLAP 服务，提供灵活且实时的报表. 业务数据存储在 MySQL 中，通过主从复制同步到报表库. 作为集团级公司，数据增长多而且快，出现了多个千万级、亿级的大表. 为了实现各个维度的各种复杂的报表业务，有些千万级大表仍然需要进行 Join，计算规模非常惊人，经常不能及时响应请求.

基于Flink构建实时数仓实践

- -

随着公司用户增长业务快速发展，陆续孵化出部落、同镇、C 端会员、游戏等非常多的业务板块. 与此同时产品及运营对实时数据需求逐渐增多，帮助他们更快的做出决策，更好的进行产品迭代，实时数仓的建设变得越发重要起来. 本文主要介绍用户增长业务基于 Flink 构建实时数仓的实践之路. 如下图是早期的实时计算架构，实时数据需求较少，架构简单，数据链路少，一路到底的开发模式能很快满足业务需求；.

Flink CDC 如何简化实时数据入湖入仓

- - Jark's Blog

一、Flink CDC 介绍. 从广义的概念上讲，能够捕获数据变更的技术, 我们都可以称为 CDC 技术. 通常我们说的 CDC 技术是一种用于捕获数据库中数据变更的技术. CDC 技术应用场景也非常广泛，包括：. 数据分发，将一个数据源分发给多个下游，常用于业务解耦、微服务. 数据集成，将分散异构的数据源集成到数据仓库中，消除数据孤岛，便于后续的分析.

Flink 零基础实战教程：如何计算实时热门商品

- - Jark's Blog

在上一篇入门教程中，我们已经能够快速构建一个基础的 Flink 程序了. 本文会一步步地带领你实现一个更复杂的 Flink 应用程序：实时热门商品. 在开始本文前我们建议你先实践一遍上篇文章，因为本文会沿用上文的 my-flink-project项目框架. 如何基于 EventTime 处理，如何指定 Watermark.

Flink 如何实时分析 Iceberg 数据湖的 CDC 数据

一、常见的 CDC 分析方案

1.1 离线 HBase 集群分析 CDC 数据

1.2 Apache Kudu 维护 CDC 数据集

1.3 直接导入 CDC 到 Hive 分析

1.4 Spark + Delta 分析 CDC 数据

二、为何选择 Flink + Iceberg

2.1 Flink 对 CDC 数据消费的支持

2.2 Flink 对 Change Log Stream 的支持

2.3 Flink + Iceberg CDC 导入方案评估

三、如何实时写入读取

3.1 批量更新场景和 CDC 写入场景

3.2 Apache Iceberg 设计 CDC 写入方案需要考虑的问题

3.3 Apache Iceberg Basic

3.4 INSERT、UPDATE、DELETE 写入

3.6 文件级别的并发

3.7 增量文件集的 Transaction 提交

四、未来规划

相关 [flink 实时分析] 推荐：