Kafka笔记—可靠性、幂等性和事务 - luozhiyun - 博客园

- -

这几天很忙，但是我现在给我的要求是一周至少要出一篇文章，所以先拿这篇笔记来做开胃菜，源码分析估计明后两天应该能写一篇. Kafka只对“已提交”的消息（committed message）做有限度的持久化保证. 当Kafka的若干个Broker成功地接收到一条消息并写入到日志文件后，它们会告诉生产者程序这条消息已成功提交.

kafka数据可靠性深度解读

- - CSDN博客推荐文章

Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统，后成为Apache的一部分，它使用Scala编写，以可水平扩展和高吞吐率而被广泛使用. 目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成. Kafka凭借着自身的优势，越来越受到互联网企业的青睐，唯品会也采用Kafka作为其内部核心消息引擎之一.

storm笔记 -- 与kafka的集成

- - 开源软件 - ITeye博客

storm与kafka的结合，即前端的采集程序将实时数据源源不断采集到队列中，而storm作为消费者拉取计算，是典型的应用场景. 因此，storm的发布包中也包含了一个集成jar，支持从kafka读出数据，供storm应用使用. 这里结合自己的应用做个简单总结. 由于storm已经提供了storm-kafka，因此可以直接使用，使用kafka的低级api读取数据.

kafka监控之kafka-run-class.sh

- - 开源软件 - ITeye博客

kafka自带了很多工具类，在源码kafka.tools里可以看到：. 这些类该如何使用呢，kafka的设计者早就为我们考虑到了，在${KAFKA_HOME}/bin下，有很多的脚本，其中有一个kafka-run-class.sh，通过这个脚本，可以调用其中的tools的部分功能，如调用kafka.tools里的ConsumerOffsetChecker.scala,.

闲扯kafka mq

- - 开源软件 - ITeye博客

本文主要讲解关于kafka mq的设计思想及个人理解. 关于kafka的详细信息，大家可以参考官网的文献 http://kafka.apache.org/documentation.html这是一篇相当不错的文章，值得仔细研读. 第一个问题：消息队列（Message Queue）是干嘛用的. 首先，要对消息队列有一个基本的理解.

Kafka优化

- - ITeye博客

配置优化都是修改server.properties文件中参数值. 1.网络和io操作线程配置优化. # broker处理消息的最大线程数. # broker处理磁盘IO的线程数. 一般num.network.threads主要处理网络io，读写缓冲区数据，基本没有io等待，配置线程数量为cpu核数加1.

Kafka 0.9+增加了一个新的特性 Kafka Connect,可以更方便的创建和管理数据流管道. 它为Kafka和其它系统创建规模可扩展的、可信赖的流数据提供了一个简单的模型，通过 connectors可以将大数据从其它系统导入到Kafka中，也可以从Kafka中导出到其它系统. Kafka Connect可以将完整的数据库注入到Kafka的Topic中，或者将服务器的系统监控指标注入到Kafka，然后像正常的Kafka流处理机制一样进行数据流处理.

kafka consumer group offset

- - 开源软件 - ITeye博客

kafka0.9及以前版本kafka offset 保存在zookeeper，因频繁读写zookeeper性能不高；从0.10开始，主题分区offset存储于kafka独立主题中. 管理监控kafka主题及分区offset至关重要，原网上很开源流行工具KafkaOffsetMonitor、kafka-manager，旧版offset保存于zookeeper，kafka consumer无相应API，从kafka0.10.1.1以后提供相应API读取主题分区offset（也可以调用KafkaClient API，kafka管理API由scala语言编写）.

Kafka设计解析（二）：Kafka High Availability （上）

- -

Kafka在0.8以前的版本中，并不提供High Availablity机制，一旦一个或多个Broker宕机，则宕机期间其上所有Partition都无法继续提供服务. 若该Broker永远不能再恢复，亦或磁盘故障，则其上数据将丢失. 而Kafka的设计目标之一即是提供数据持久化，同时对于分布式系统来说，尤其当集群规模上升到一定程度后，一台或者多台机器宕机的可能性大大提高，对Failover要求非常高.

GitHub - andreas-schroeder/kafka-health-check: Health Check for Kafka Brokers.

- -

At AutoScout24, to keep the OS up to date of our clusters running on AWS, we perform regular in-place rolling updates. As we run immutable servers, we terminate each broker and replace them with fresh EC2 instances (keeping the previous broker ids).

Kafka笔记—可靠性、幂等性和事务 - luozhiyun - 博客园

可靠性

如何保证消息不丢失

丢失数据案例

生产者程序丢失数据

消费者端丢失数据

最佳实现

幂等性

事务

事务性Producer

相关 [kafka 笔记可靠性] 推荐：