踩坑记：Flink 事件时间语义下数据乱序丢数

server_timestamp	id	duration
2020/9/01 21:14:38	1	300
2020/9/01 21:14:50	1	500
2020/9/01 21:25:38	2	600
2020/9/01 21:25:38	3	900
2020/9/01 21:25:38	2	800

timestamp	id_cnt	duration_sum
2020/9/01 21:14:00	2	900
2020/9/01 21:25:00	3	2300

- - IT瘾-dev

❝ 本文详细介绍了在上游使用处理时间语义的 flink 任务出现故障后，重启消费大量积压在上游的数据并产出至下游数据乱序特别严重时，下游 flink 任务使用事件时间语义时遇到的大量丢数问题以及相关的解决方案. 「1.本次踩坑的应用场景」. 「2.应用场景中发生的丢数故障分析」. 「4.丢数故障解决方案及原理」.

flink-watermark

- - ITeye博客

当我们统计用户点击的时候，有时候会因为各种情况数据延迟，我们需要一个允许最大的延迟范围进行统计. 模拟初始数据：早上10:00 11.10 用户点击了一次，但是延迟到10:00 11.15 才发送过来，允许最大延迟5秒， 5秒窗口统计. /** 实际时间-偏移量偏移后的时间*/.

本文主要是讲解flink on yarn的部署过程，然后yarn-session的基本原理，如何启动多个yarn-session的话如何部署应用到指定的yarn-session上，然后是用户jar的管理配置及故障恢复相关的参数. flink on yarn的整个交互过程图，如下：. 要使得flink运行于yarn上，flink要能找到hadoop配置，因为要连接到yarn的resourcemanager和hdfs.

Flink SQL 编程实践

- - Jark's Blog

注：本教程实践基于 Ververica 开源的. sql-training 项目. 基于 Flink 1.7.2. 本文将通过五个实例来贯穿 Flink SQL 的编程实践，主要会涵盖以下几个方面的内容. 如何使用 SQL CLI 客户端. 如何在流上运行 SQL 查询. 运行 window aggregate 与 non-window aggregate，理解其区别.

谈谈 Flink Shuffle 演进

- - 时间与精神的小屋

在分布式计算中，Shuffle 是非常关键但常常容易被忽视的一环. 比如著名的 MapReduce 的命名跳过 Shuffle ，只包含其前后的 Map 跟 Reduce. 背后原因一方面是 Shuffle 是底层框架在做的事情，用户基本不会感知到其存在，另一方面是 Shuffle 听起来似乎是比较边缘的基础服务.

Flink 1.16：Hive SQL 如何平迁到 Flink SQL

- - Jark's Blog

Hive SQL 迁移的动机. Flink 已经是流计算的事实标准，当前国内外做实时计算或流计算一般都会选择 Flink 和 Flink SQL. 另外，Flink 也是是家喻户晓的流批一体大数据计算引擎. 然而，目前 Flink 也面临着挑战. 比如虽然现在大规模应用都以流计算为主，但 Flink 批计算的应用并不广泛，想要进一步推动真正意义上的流批一体落地，需要推动业界更多地落地 Flink 批计算，需要更积极地拥抱现有的离线生态.

Flink Kafka Connector与Exactly Once剖析

- - SegmentFault 最新的文章

Flink Kafa Connector是Flink内置的Kafka连接器，它包含了从Kafka Topic读入数据的 Flink Kafka Consumer以及向Kafka Topic写出数据的 Flink Kafka Producer，除此之外Flink Kafa Connector基于Flink Checkpoint机制提供了完善的容错能力.

Flink在唯品会的实践

- - DockOne.io

唯品会自2017年开始基于Kubernetes深入打造高性能、稳定、可靠、易用的实时计算平台，支持唯品会内部业务在平时以及大促的平稳运行. 现平台支持Flink、Spark、Storm等主流框架. 本文主要分享Flink的容器化实践应用以及产品化经验. 平台支持公司内部所有部门的实时计算应用. 主要的业务包括实时大屏，推荐，实验平台，实时监控和实时数据清洗等.

使用 Kubernetes 部署 Flink 应用

- - 张吉的博客

Kubernetes 是目前非常流行的容器编排系统，在其之上可以运行 Web 服务、大数据处理等各类应用. 这些应用被打包在一个个非常轻量的容器中，我们通过声明的方式来告知 Kubernetes 要如何部署和扩容这些程序，并对外提供服务. Flink 同样是非常流行的分布式处理框架，它也可以运行在 Kubernetes 之上.

Flink CDC 核心：Debezium 1.9.0.Beta1 发布！

- - IT瘾-dev

我很高兴地宣布 Debezium 1.9.0.Beta1的发布. 此版本包括 Debezium Server 的许多新功能，包括 Knative Eventing 支持和使用 Redis 接收器的偏移存储管理、SQL Server 连接器的多分区缩放以及各种错误修复和改进. 总体而言，此版本已修复56 个问题.

踩坑记：Flink 事件时间语义下数据乱序丢数

应用场景

丢数故障分析

待修复的故障点

解决方案以及原理

丢数故障解决方案

解决方案原理

输入数据样例

输出数据样例

总结

学习资料

flink

相关 [flink 事件时间] 推荐：