如何配置 KAFKA 使其消息不会丢失

不可靠的KAFKA

这里的不可靠是指代KAFKA其设计之初就为高性能而设计，其是允许消息丢失的，但经过多个版本的升级之后，通过KAFKA的相关配置，我们可以将其作为可靠的队列（不丢消息的队列）。

在本文里，不会具体列出要改哪个参数，需要改的参数请大家自行翻文档找出来，这样理解会更为深刻。

发送消息到KAFKA时产生的消息丢失

在一些比较旧的版本，KAFKA客户端发送消息到KAFKA服务器时，由于客户端不等待服务器回应，直接返回，等待发送异步进行。因此其在发送环节就可能存在消息丢失。

为了避免消息丢失，我们需要用新版客户端，并配置客户端发送消息时同步等待返回结果

KAFKA服务器宕机导致的消息丢失（磁盘缓存丢失）

KAFKA自身不管理LOG写入磁盘的缓存，将其交由操作系统处理。因此在默认配置下，如果KAFKA宕机，则会因为数据没有FLUSH到磁盘而丢失数据。

为了保证数据不丢失，KAFKA提供的现成方法有两个，

每条消息都Flush一次；每条都Flush一遍，必然不可行，因为其速度会变得很慢。官方也不建议这么做。（如果其有类似Group Commit的优化机制的话，我觉得可以使用，但是貌似曾经有人提过这个PR，没有被采纳，其认为用集群就可解决这个可靠性问题）
构建集群，以提高可用性。官方推荐的方法。只要挂的机器不要超过强制写入的机器，那么就可以保证数据不丢失。但需要注意的是，KAFKA组成的集群必须在不同机房。不然机房一断电，集群内的KAFKA就会出现消息丢失。

KAFKA复制模式导致的丢失

KAFKA的副本模式为主备复制模式，这个模式下有两种形式同步复制模式以及异步复制模式。

异步复制模式：客户端将信息发送到主副本，主副本收到信息写到本地缓存后即返回ACK给客户端。然后异步地将数据发送给备份。本配置为默认配置，其高效，但主挂掉，则消息丢失。同步复制模式：客户端将信息发送到主副本，主副本收到信息，写到本地缓存，并发送给所有从机，从机都写到缓存后给主机反馈，主机都收到反馈后再反馈给客户端

需要修改复制模式为同步复制

KAFKA选举导致的消息丢失

KAFKA有一个配置，是否允许在不得已的情况下，允许在非同步状态下的副本成为主副本。其默认是打开的，结果就导致存在丢失消息的可能性。需要将其关闭

未被确认的消息不会被消费

KAFKA使用主从同步复制的时候，没有被完全复制（完全复制的消息会在HW（High water Mark之下））的信息不会被消费。一个Broker若需要从非ISR状态进入到ISR状态前，会将其在HW之前的消息记录给truncate掉，并尝试跟上Master里的记录。跟上后，将会恢复ISR状态。

KAFKA的主节点选举通过ZK中登记的序号决定，更细节可查看KAFKA同步复制模式选举过程，以上为默认实现，不需修改，也无法修改

已确认的消息如果存在ISR状态的副本的话，就不会丢失记录

原Master挂掉后，新选出的Master不会丢弃HW之后的消息，新Master会将这些HW之后的副本再次发送给其余的副本。因此即使高水位信息没有传递给新的Master副本也没有问题。

ISR分区过少导致失去容灾特性

默认配置下，ISR分区个数可以为1时依然可以写数据。但当出现这种情况的时候，就失去了容灾性。只要主分区挂掉，那么数据就丢失。

KAFKA有配置可以指定写入时最少的ISR数量，少于特定值，就不再ACK。如一共三台BROKER，我们可以指定ISR最少数量为2,那么只有1台处于ISR状态的话，COMMIT将无法执行。

是否设置该值，视具体情况而定，若无法容忍丢失，则设置该值为2，NAME 。追求可用性，则不设置。

个人建议设置为2，无论副本数量有多少

KAFKA如何处理网络分区情况？

如果MASTER与其他的副本与ZK是联通的，但是MASTER与其他副本之间出现了网络分区，那么ISR就只能为1。

消息保存的策略的设置

建议保留消息的策略基于时间。如保留21天

客户端宕机导致的消费位置丢失

KAFKA在分区中的消费位置由客户端管控，其有可能没有及时保存到KAFKA中，导致消费位置丢失。若消费位置丢失，则消费可能从上一个保存的消费位置重新进行消费。所以在不能接受重复消息的系统需要自行定制对于消息的幂等处理

（死信是否会丢失？）

At Least Once

实际上我们对可靠消息系统的要求通常是At least Once,经过上述配置已经基本达到了At Least Once的要求

消息消费失败的重试设置

需要设计一个死信队列，消费失败的消息需放入里面，以免影响后续其他消息消费

参考

https://kafka.apache.org/documentation/#replication

今天分享一个最近在业务开发中涉及使用到的很巧妙的小 tip。业务背景是有一张记录后台的 DB 主表，数据量达到百万级别。后台会涉及到一些字段筛选等，所以如果每次查询直接走 DB 的话会效率较慢。于是该业务采用的是当有用户或者后台运营进行数据变更时通过消息队列及时将 DB 变化及时同步至 ES。此刻有一个新的业务后台开 ..

零拷贝的原理

[图片] 概述如果学习过 Kafka 的小伙伴，想必对零拷贝技术并不陌生，Kafka 对 Producer 和 Consumer 能有这么快的处理能力，很大程度上就是依赖于对零拷贝的支持。零拷贝是什么呢？它和传统模式有什么区别呢？我们该如何用呢？接下来这篇文章将会就这些问题给您娓娓道来。传统方式在我们编写程 ..

zeebe 集成 kafka

[图片] zeebe 集成 kafka Apache Kafka 是一种高度可伸缩，具有弹性和持久性的事件总线。它可能用于高吞吐量消息传递，事件驱动的体系结构，作为事件存储或支持事件流体系结构。 zeebe 是云原生的工作流引擎，主要用于微服务编排在实际的工作中遇到了微服务编排和事件驱动架构设计等一系列问题。而 ze ..

基于 Kafka 的消息中间件的综述与使用示例 - 中间件结课小论文

[图片] 1.摘要本文简要概述了 Kafka 的由来，并详细说明了 Kafka 的架构和设计原则。在充分了解了 Kafka 相关原理的基础上，尝试使用虚拟机搭建了一个单机多实例的 Kafka 及其所需的 Zookeeper 集群。最后在已有集群基础上整合 Spring Boot,构建了一个简易的 Kafka 使用用例 ..

Flink 实战之网站日志 ETL

应用场景：数据清洗【实时 ETL】数据报表 1、数据清洗【实时 ETL】 [图片] 1.1、需求分析针对算法产生的日志数据进行清洗拆分算法产生的日志数据是嵌套大 JSON 格式（json 嵌套 json），需要拆分打平针对算法中的国家字段进行大区转换最后把不同类型的日志数据分别进行存储更多内容请访问：ht ..

思源笔记 v3.0.10 发布，改进数据索引

概述该版本改进了数据索引和数据库视图相关细节。变更记录以下是此版本中的详细变更。改进功能 [链接] [链接] [链接] [链接] [链接] [链接] [链接] 编辑文档时改进数据索引性能 Ctrl+Shift+F 不再叠加关键字改进移动设备上的左右滑动改进在代码、标签和键盘之前 Del 导入 .sy.zip ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于