Flink CDC 核心:Debezium 1.9.0.Beta1 发布!

标签: dev | 发表时间:2022-03-08 00:00 | 作者:
出处:http://itindex.net/relian

我很高兴地宣布 Debezium  1.9.0.Beta1的发布!

此版本包括 Debezium Server 的许多新功能,包括 Knative Eventing 支持和使用 Redis 接收器的偏移存储管理、SQL Server 连接器的多分区缩放以及各种错误修复和改进。总体而言,此版本已修复56 个问题。

让我们仔细看看其中的几个。

Debezium Server Knative Eventing

自从在 1.2 版中引入 Debezium 产品组合以来,Debezium Server 已经发展了很多。在这个版本中,我们添加了一个新的接收器实现来支持Knative Eventing。

Knative Eventing“提供了将事件从生产者路由到消费者的工具和基础设施”,这与 Apache Kafka 允许通过消息主题交换事件的方式非常相似。借助 Debezium Server,您现在可以利用新的debezium-server-http接收器将 Debezium 更改数据事件传递到 Knative Broker,这是一种 Kubernetes 资源,它定义了用于收集CloudEvents并将其分发给消费者的网格。换句话说,Debezium Server 可以充当“本机”Knative 事件源。

为了开始使用 Debezium 和 Knative Eventing,您只需使用所需的源连接器配置 Debezium 服务器,然后使用以下内容配置接收端:

   debezium.sink.type=http    
debezium.format.value=cloudevents

接收器将尝试根据 K_SINK环境变量自动检测端点。如果此变量未定义任何值,您可以直接使用以下命令显式提供端点 URL:

   debezium.sink.http.url=https://<hostname>/<end-point>

我们对这款新的接收器连接器感到非常兴奋,我们期待您的所有反馈。非常感谢Chris Baumbauer 所做的出色贡献!

Debezium 服务器的 Redis 管理的偏移量

Redis的几个人最近加强了关于集成 Debezium 和Redis Streams的故事。在 1.9.0.Alpha1(通过批处理)完成性能改进之后,该工作的另一个结果是能够在 Redis中存储连接器偏移量。对于下一个 1.9 早期访问版本,您可以期待 Redis 支持的数据库历史实现,该团队还致力于实现对 Debezium Server 的重试支持。非常感谢Yossi Shirizli、Oren Elias和所有其他 Redis 人员,他们不仅为 Redis Streams sink 做出了贡献,还为整个 Debezium 和 Debezium Server 做出了贡献!

SQL Server 连接器的多分区扩展

一些数据库平台,例如 SQL Server 和 Oracle,支持在单个物理数据库服务器实例中创建和管理多个逻辑数据库。传统上,来自多个逻辑数据库的流式更改需要单独的连接器部署。现在这样的部署策略本身并没有什么问题,但是如果你有很多逻辑数据库,它很快就会开始显示出它的缺点;例如,在每个租户一个逻辑数据库的多租户场景中,每个数据库设置和操作一个连接器的开销可能会成为瓶颈。除此之外,通过 Kafka Connect 的任务概念,处理来自多个逻辑数据库的更改事件非常适合并行化。

在过去的几个 1.x 版本中,大量的工作已经对 Debezium 的通用连接器框架进行了关键的根本性更改,为新的水平扩展策略奠定了基础。

此新策略的初始目标之一是在单个 SQL Server 实例中从多个逻辑数据库流式传输更改时消除对多个连接器部署的需要。此外,以使监控工具能够从以连接器为中心的角度以及从每个正在处理的逻辑数据库报告连接器的状态和运行状况的方式公开指标至关重要。在这个版本中,我们已经实现了这些目标。

但这只是开始!

这个基础为我们可以转向新的水平扩展策略奠定了基础。Debezium 使用基于单任务的架构,这开启了真正利用多节点 Kafka Connect 集群的强大功能并跨多个任务分配工作块的可能性。此外,这可以扩展到其他连接器,例如 Oracle。

这项工作由 SugarCRM 的Sergei Morozov周围的团队领导,他们已经在多分区模式下部署了 SQL Server 连接器,该模式由内部分叉构建,他们在内部维护该内部分支,直到整个工作都被上游化。我们非常非常感谢 Sergei、Jacob Gminder、Mike Kamornikov 以及来自 SugarCRM 的其他所有人,他们孜孜不倦地为 Debezium 社区实现这一目标,我们非常期待继续和进一步扩大这种密切的合作。

其他修复和更改

1.9.0.Beta1 版本中的进一步修复和改进包括:

  • MySQL ( DBZ-4707 ) 和 Oracle ( DBZ-4641 , DBZ-4662 , DBZ-4706 , DBZ-4746 , DBZ-4752 , DBZ-4763 )的各种 DDL 解析器修复

  • 更正了 PostgreSQL 连接器的长时间运行事务问题 ( DBZ-2306 )

  • Oracle 连接器稳定性改进(DBZ-4635、DBZ-4715、DBZ-4723、DBZ-4737、DBZ-4744)

请参阅发行说明以了解有关这些以及此版本中进一步修复的更多信息。

与往常一样,非常感谢为此版本做出贡献的每个人!

展望

随着 Beta1 发布完成,我们正在接近 1.9 发布周期的最后阶段。根据收到的问题报告,您可以预计未来几周内的新版本可能是 CR1。

随着我们转向并展望 1.9 之后,您可以期待 Debezium 2.0 的工作将于 2022 年 4 月上旬开始。当前的路线图是投入 2 个完整的发布周期,这意味着您可以期待 Debezium 2.0 的某个时间接近 2022 年 9 月底。同时,您可以期待在整个过程中定期更新 Debezium 1.9。

如果您对 Debezium 2.0 感兴趣,到目前为止,我们已经在DBZ-3899中收集了许多项目。这不是一个详尽的列表,也没有对这个列表进行优先级排序和范围限定为您在 2.0 中可以预期的内容;然而,我们已经确定了社区或团队认为对于这个新的主要版本来说是可操作的任务。如果您有什么想看的,请花点时间就上述 Jira 票提出讨论,或者在我们的邮件列表中加入有关该主题的讨论。


相关 [flink cdc 核心] 推荐:

Flink CDC 核心:Debezium 1.9.0.Beta1 发布!

- - IT瘾-dev
我很高兴地宣布 Debezium  1.9.0.Beta1的发布. 此版本包括 Debezium Server 的许多新功能,包括 Knative Eventing 支持和使用 Redis 接收器的偏移存储管理、SQL Server 连接器的多分区缩放以及各种错误修复和改进. 总体而言,此版本已修复56 个问题.

Flink CDC 高频面试 13 问

- - IT瘾-dev
大家好,今天分享一篇土哥的文章. Flink cdc 2.1.1 发布后,更新了很多新功能以及知识点,今天为大家全面总结了 CDC 的知识点如 无锁算法及面试高频考点. 2 Flink cdc 2.1.1 新增内容. 获取本文文档,直接在公众号后台回复: CDC,加土哥微信,领取 Flink CDC 2.2.1 总结文档.

基于 Flink SQL CDC 的实时数据同步方案 (developer.aliyun.com)

- - IT瘾-jianshu
整理:陈政羽(Flink 社区志愿者). Flink 1.11 引入了 Flink SQL CDC,CDC 能给我们数据和业务间能带来什么变化. 本文由 Apache Flink PMC,阿里巴巴技术专家伍翀 (云邪)分享,内容将从传统的数据同步方案,基于 Flink CDC 同步的解决方案以及更多的应用场景和 CDC 未来开发规划等方面进行介绍和演示.

用Flink SQL CDC + ES实现数据实时化真香!

- -
本人目前参与的项目属于公司里面数据密集、计算密集的一个重要项目,需要提供高效且准确的 OLAP 服务,提供灵活且实时的报表. 业务数据存储在 MySQL 中,通过主从复制同步到报表库. 作为集团级公司,数据增长多而且快,出现了多个千万级、亿级的大表. 为了实现各个维度的各种复杂的报表业务,有些千万级大表仍然需要进行 Join,计算规模非常惊人,经常不能及时响应请求.

Flink 如何实时分析 Iceberg 数据湖的 CDC 数据

- - 掘金 后端
本文由李劲松、胡争分享,社区志愿者杨伟海、李培殿整理. 主要介绍在数据湖的架构中,CDC 数据实时读写的方案和原理. 文章主要分为 4 个部分内容:. 常见的 CDC 分析方案. 为何选择 Flink + Iceberg. 一、常见的 CDC 分析方案. 我们先看一下今天的 topic 需要设计的是什么.

Flink CDC 如何简化实时数据入湖入仓

- - Jark's Blog
一、Flink CDC 介绍. 从广义的概念上讲,能够捕获数据变更的技术, 我们都可以称为 CDC 技术. 通常我们说的 CDC 技术是一种用于捕获数据库中数据变更的技术. CDC 技术应用场景也非常广泛,包括:. 数据分发,将一个数据源分发给多个下游,常用于业务解耦、微服务. 数据集成,将分散异构的数据源集成到数据仓库中,消除数据孤岛,便于后续的分析.

flink-watermark

- - ITeye博客
     当我们统计用户点击的时候,有时候会因为各种情况数据延迟,我们需要一个允许最大的延迟范围进行统计.        模拟初始数据:早上10:00 11.10 用户点击了一次,但是延迟到10:00 11.15 才发送过来,允许最大延迟5秒, 5秒窗口统计. /** 实际时间-偏移量 偏移后的时间*/.

一文精通 Flink on YARN

- - IT瘾-dev
本文主要是讲解flink on yarn的部署过程,然后yarn-session的基本原理,如何启动多个yarn-session的话如何部署应用到指定的yarn-session上,然后是用户jar的管理配置及故障恢复相关的参数. flink on yarn的整个交互过程图,如下:. 要使得flink运行于yarn上,flink要能找到hadoop配置,因为要连接到yarn的resourcemanager和hdfs.

Flink SQL 编程实践

- - Jark's Blog
注: 本教程实践基于 Ververica 开源的. sql-training 项目. 基于 Flink 1.7.2. 本文将通过五个实例来贯穿 Flink SQL 的编程实践,主要会涵盖以下几个方面的内容. 如何使用 SQL CLI 客户端. 如何在流上运行 SQL 查询. 运行 window aggregate 与 non-window aggregate,理解其区别.

谈谈 Flink Shuffle 演进

- - 时间与精神的小屋
在分布式计算中,Shuffle 是非常关键但常常容易被忽视的一环. 比如著名的 MapReduce 的命名跳过 Shuffle ,只包含其前后的 Map 跟 Reduce. 背后原因一方面是 Shuffle 是底层框架在做的事情,用户基本不会感知到其存在,另一方面是 Shuffle 听起来似乎是比较边缘的基础服务.