记一次kafka数据丢失问题的排查 - CSDN博客

- -

数据丢失为大事，针对数据丢失的问题我们排查结果如下. 第二：是在什么地方丢失的数据，是否是YDB的问题. 数据丢失是在导入阶段，数据并没有写入到Kafka里面，所以YDB也就不会从Kafka里面消费到缺失的数据，数据丢失与延云YDB无关. 1.测试数据会一共创建365个分区，每个分区均是9亿数据，如果最终每个分区还是9亿（多一条少一条均不行），则数据完整.

高速数据总线kafka介绍

- - 数据库 - ITeye博客

在大数据系统中，常常会碰到一个问题，整个大数据是由各个子系统组成，数据需要在各个子系统中高性能，低延迟的不停流转. 有没有一个系统可以同时搞定在线应用（消息）和离线应用（数据文件，日志）. 2、降低编程复杂度，各个子系统不在是相互协商接口，各个子系统类似插口插在插座上，Kafka承担高速数据总线的作用.

kafka数据可靠性深度解读

- - CSDN博客推荐文章

Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统，后成为Apache的一部分，它使用Scala编写，以可水平扩展和高吞吐率而被广泛使用. 目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成. Kafka凭借着自身的优势，越来越受到互联网企业的青睐，唯品会也采用Kafka作为其内部核心消息引擎之一.

Avoiding Data Loss - 避免Kafka数据丢失

- -

If for some reason the producer cannot deliver messages that have been consumed and committed by the consumer, it is possible for a MirrorMaker process to lose data..

storm、hbase、kafka整合过程中遇到的log4j冲突问题

- - 行业应用 - ITeye博客

storm、hbase、kafka整合过程中遇到的log4j冲突问题. log4j-over-slf4j.jar AND slf4j-log4j12.jar 循环调用冲突了，再进一步原因是kafka、hbase中用的是log4j. * 方案一：把storm中的log4j-over-slf4j 依赖排除；.

大数据架构：flume-ng+Kafka+Storm+HDFS 实时系统组合

- - 行业应用 - ITeye博客

大数据我们都知道hadoop，但并不都是hadoop.我们该如何构建大数据库项目. 对于离线处理，hadoop还是比较适合的，但是对于实时性比较强的，数据量比较大的，我们可以采用Storm，那么Storm和什么技术搭配，才能够做一个适合自己的项目. 可以带着下面问题来阅读本文章：. 1.一个好的项目架构应该具备什么特点.

Kafka实战－数据持久化 - 哥不是小萝莉

- - 博客园_首页

今天进入Kafka实战的最后一个环节，那就是Kafka实战的结果的数据持久化. 　　一般，我们在进行实时计算，将结果统计处理后，需要将结果进行输出，供前端工程师去展示我们统计的结果（所说的报表）. 结果的存储，这里我们选择的是Redis＋MySQL进行存储，下面用一张图来展示这个持久化的流程，如下图所示：.

实用 | 从Apache Kafka到Apache Spark安全读取数据

- - IT瘾-bigdata

随着在CDH平台上物联网(IoT)使用案例的不断增加，针对这些工作负载的安全性显得至关重要. 本篇博文对如何以安全的方式在Spark中使用来自Kafka的数据，以及针对物联网(IoT)使用案例的两个关键组件进行了说明. Cloudera Distribution of Apache Kafka 2.0.0版本(基于Apache Kafka 0.9.0)引入了一种新型的Kafka消费者API，可以允许消费者从安全的Kafka集群中读取数据.

Kafka重复消费和丢失数据研究 | Zollty's Blog

- -

底层根本原因：已经消费了数据，但是offset没提交. 原因1：强行kill线程，导致消费后的数据，offset没有提交. 原因2：设置offset为自动提交，关闭kafka时，如果在close之前，调用 consumer.unsubscribe() 则有可能部分offset没提交，下次重启会重复消费.

Kafka系列（八）跨集群数据镜像

- - Dengshenyu

本系列文章为对《Kafka：The Definitive Guide》的学习整理，希望能够帮助到大家. 在之前系列文章中，我们讨论了一个Kafka集群的搭建、维护和使用，而在实际情况中我们往往拥有多个Kafka集群，而且这些Kafka集群很可能是相互隔离的. 一般来说，这些集群之间不需要进行数据交流，但如果在某些情况下这些集群之间存在数据依赖，那么我们可能需要持续的将数据从一个集群复制到另一个集群.

记一次kafka数据丢失问题的排查 - CSDN博客

相关 [kafka 数据问题] 推荐：