日均处理万亿数据！Flink在快手的应用实践与技术演进之路

- - SegmentFault 最新的文章

作者介绍：董亭亭，快手大数据架构实时计算引擎团队负责人. 目前负责 Flink 引擎在快手内的研发、应用以及周边子系统建设. 2013 年毕业于大连理工大学，曾就职于奇虎 360、58 集团. 主要研究领域包括：分布式计算、调度系统、分布式存储等系统. 本次的分享包括以下三个部分：. 介绍 Flink 在快手的应用场景以及目前规模；.

腾讯看点基于 Flink 构建万亿数据量下的实时数仓及实时查询系统

- - IT瘾-dev

▼ 关注「 Flink 中文社区」，获取更多技术干货 ▼. 摘要：本文由社区志愿者路培杰整理，腾讯看点数据团队高级工程师王展雄在 Flink Forward Asia 2020 分享的议题《腾讯看点基于 Flink 构建万亿数据量下的实时数仓及实时查询系统》. Tips：点击「阅读原文」即可查看作者分享原版视频～.

Flink 如何实时分析 Iceberg 数据湖的 CDC 数据

- - 掘金后端

本文由李劲松、胡争分享，社区志愿者杨伟海、李培殿整理. 主要介绍在数据湖的架构中，CDC 数据实时读写的方案和原理. 文章主要分为 4 个部分内容：. 常见的 CDC 分析方案. 为何选择 Flink + Iceberg. 一、常见的 CDC 分析方案. 我们先看一下今天的 topic 需要设计的是什么.

flink-watermark

- - ITeye博客

当我们统计用户点击的时候，有时候会因为各种情况数据延迟，我们需要一个允许最大的延迟范围进行统计. 模拟初始数据：早上10:00 11.10 用户点击了一次，但是延迟到10:00 11.15 才发送过来，允许最大延迟5秒， 5秒窗口统计. /** 实际时间-偏移量偏移后的时间*/.

基于 Flink SQL CDC 的实时数据同步方案 (developer.aliyun.com)

- - IT瘾-jianshu

整理：陈政羽（Flink 社区志愿者）. Flink 1.11 引入了 Flink SQL CDC，CDC 能给我们数据和业务间能带来什么变化. 本文由 Apache Flink PMC，阿里巴巴技术专家伍翀 (云邪）分享，内容将从传统的数据同步方案，基于 Flink CDC 同步的解决方案以及更多的应用场景和 CDC 未来开发规划等方面进行介绍和演示.

用Flink SQL CDC + ES实现数据实时化真香！

- -

本人目前参与的项目属于公司里面数据密集、计算密集的一个重要项目，需要提供高效且准确的 OLAP 服务，提供灵活且实时的报表. 业务数据存储在 MySQL 中，通过主从复制同步到报表库. 作为集团级公司，数据增长多而且快，出现了多个千万级、亿级的大表. 为了实现各个维度的各种复杂的报表业务，有些千万级大表仍然需要进行 Join，计算规模非常惊人，经常不能及时响应请求.

众所周知，流场景和批场景最为根本的区别在于 Data Boundness（数据集有界性）. Data Boundness 将数据分为 Bounded 和 Un-Bounded. 在业界过去多年的实践中，两者分别绑定对应领域的存储系统和计算引擎，然而在流批一体的趋势下，领域的边界在逐渐弱化. 例如，消息队列通常用作流场景，但 Pravega 的 StreamCut 支持将指定队列中某一段消息作为批处理的输入[1].

Flink CDC 如何简化实时数据入湖入仓

- - Jark's Blog

一、Flink CDC 介绍. 从广义的概念上讲，能够捕获数据变更的技术, 我们都可以称为 CDC 技术. 通常我们说的 CDC 技术是一种用于捕获数据库中数据变更的技术. CDC 技术应用场景也非常广泛，包括：. 数据分发，将一个数据源分发给多个下游，常用于业务解耦、微服务. 数据集成，将分散异构的数据源集成到数据仓库中，消除数据孤岛，便于后续的分析.

基于 Flink SQL 构建实数据仓库：OPPO 数据中台之基石

- - IT瘾-dev

本文整理自 2019 年 4 月 13 日在深圳举行的 Flink Meetup 会议，分享嘉宾张俊，目前担任 OPPO 大数据平台研发负责人，也是 Apache Flink contributor. - OPPO 实时数仓的演进思路；. - 基于 Flink SQL 的扩展工作；. - 构建实时数仓的应用案例；.

维度数据实时关联的实践（w/ Flink、Vert.x & Guava Cache） - 简书

- -

在流式处理作业（特别是实时数仓ETL作业）中，我们的数据流可以视为无界事实表，其中往往缺乏一些维度信息. 例如，对于埋点日志流而言，为了减少传输冗余，可能只会带有城市ID、商品ID等，如果要映射到对应的名称，就需要与外部存储中的维度表进行关联. 这里的外部存储一般是指适合OLTP场景的数据库，如MySQL、Redis、HBase等.

日均处理万亿数据！Flink在快手的应用实践与技术演进之路

一．Flink 在快手应用场景与规模

1. Flink 在快手应用场景

2.Flink 集群规模

二．快手 Flink 技术演进

1.场景优化

1.1 Interval Join 应用场景

1.2 Interval Join 场景优化

1.2.1 Interval Join 原理：

1.2.2 状态存储策略选择

1.2.3 RocksDB 访问性能问题

1.2.4 针对 RocksDB 访问性能优化

1.2.5 RocksDB 磁盘压力问题

2.稳定性改进

2.1 数据源控速

2.2 JobManager 稳定性

2.3 作业频繁失败

3.平台化建设

3.1 平台建设：

3.2 问题定位流程优化：

三．未来计划

相关 [万亿数据 flink] 推荐：