Kafka Connect简介
Kafka 0.9+增加了一个新的特性 Kafka Connect,可以更方便的创建和管理数据流管道。它为Kafka和其它系统创建规模可扩展的、可信赖的流数据提供了一个简单的模型,通过 connectors可以将大数据从其它系统导入到Kafka中,也可以从Kafka中导出到其它系统。Kafka Connect可以将完整的数据库注入到Kafka的Topic中,或者将服务器的系统监控指标注入到Kafka,然后像正常的Kafka流处理机制一样进行数据流处理。而导出工作则是将数据从Kafka Topic中导出到其它数据存储系统、查询系统或者离线分析系统等,比如数据库、 Elastic Search、 Apache Ignite等。
Kafka Connect特性包括:
- Kafka connector通用框架,提供统一的集成API
- 同时支持分布式模式和单机模式
- REST 接口,用来查看和管理Kafka connectors
- 自动化的offset管理,开发人员不必担心错误处理的影响
- 分布式、可扩展
- 流/批处理集成
流数据平台
基于Kafka, LinkedIn等一些大公司已经建立起架构类似的、可扩展的流数据平台。它包含两个功能,数据集成和流处理。
Kafka Connect则是为数据集成而生。
多年来,Kafka已经成为处理大数据流的平台标准, 成千上万的公司在使用它。程序员在构建它们的平台的时候也遇到一些问题:
- Schema管理
- 容错
- 并行化
- 数据延迟
- 分发担保
- 运营与监控
这些棘手的问题都要程序员去处理,如果有一个统一的框架去完成这些事情,将可以大大减少程序员的工作量,因此Kafka 0.9中提供了这一特性,负责处理这些问题。
Kafka背后的公司confluent鼓励社区创建更多的开源的connector,将Kafka生态圈壮大起来,促进Kafka Connnect的应用。
Kafka Connnect有两个核心概念:Source和Sink。 Source负责导入数据到Kafka,Sink负责从Kafka导出数据,它们都被称为Connector。
当前Kafka Connect支持两种分发担保:at least once (至少一次) 和 at most once(至多一次),exactly once将在未来支持。
当前已有的Connectors包括:
Connector Name | Owner | Status |
HDFS | [email protected] | Confluent supported |
JDBC | [email protected] | Confluent supported |
Debezium - CDC Sources | [email protected] | Community project |
MongoDB Source | [email protected] [email protected] | In progress |
MQTT Source | [email protected] | Community project |
MySQL Binlog Source | [email protected] | In progress |
Twitter Source | [email protected] | In progress |
Cassandra Sink | Cassandra Sink | Community project |
Elastic Search Sink | [email protected] | Community project |
Elastic Search Sink | [email protected] | In progress |
Elastic Search Sink | [email protected] [email protected] | In progress |
Apache Ignite Sink | Apache Ignite Project | Community project (Planned for Apache Ignite 1.6 Release) |
Connectors的发布和开发可以参照 官方文档。如果以前你通过producer API/consumer API写了一些导入导出的功能,不妨尝试一下换成Kafka Connect,看看是否简化了你的代码,提高了应用可扩展和容错的能力。