kafka 的详解

Kafka 概念

Kafka 是一种高吞吐量、分布式、基于发布/订阅的消息系统，最初由 LinkedIn 公司开发，使用
Scala 语言编写，目前是 Apache 的开源项目。

broker：Kafka 服务器，负责消息存储和转发
topic：消息类别，Kafka 按照 topic 来分类消息
partition：topic 的分区，一个 topic 可以包含多个 partition，topic 消息保存在各个
partition 上
offset：消息在日志中的位置，可以理解是消息在 partition 上的偏移量，也是代表该消息的
唯一序号
Producer：消息生产者
Consumer：消息消费者
Consumer Group：消费者分组，每个 Consumer 必须属于一个 group
Zookeeper：保存着集群 broker、topic、partition 等 meta 数据；另外，还负责 broker 故
障发现，partition leader 选举，负载均衡等功能

Kafka 数据存储设计

partition 的数据文件（ offset，MessageSize，data ）
partition 中的每条 Message 包含了以下三个属性：offset，MessageSize，data，其中 offset 表
示 Message 在这个 partition 中的偏移量，offset 不是该 Message 在 partition 数据文件中的实际存储位置，而是逻辑上一个值，它唯一确定了 partition 中的一条 Message，可以认为 offset 是
partition 中 Message 的 id；MessageSize 表示消息内容 data 的大小；data 为 Message 的具
体内容。

数据文件分段 segment（顺序读写、分段命令、二分查找）

partition 物理上由多个 segment 文件组成，每个 segment 大小相等，顺序读写。每个 segment
数据文件以该段中最小的 offset 命名，文件扩展名为.log。这样在查找指定 offset 的 Message 的
时候，用二分查找就可以定位到该 Message 在哪个 segment 数据文件中。

数据文件索引（分段索引、稀疏存储）

Kafka 为每个分段后的数据文件建立了索引文件，文件名与数据文件的名字是一样的，只是文件扩
展名为.index。index 文件中并没有为数据文件中的每条 Message 建立索引，而是采用了稀疏存
储的方式，每隔一定字节的数据建立一条索引。这样避免了索引文件占用过多的空间，从而可以
将索引文件保留在内存中。

生产者设计

负载均衡（partition 会均衡分布到不同 broker 上）

由于消息 topic 由多个 partition 组成，且 partition 会均衡分布到不同 broker 上，因此，为了有
效利用 broker 集群的性能，提高消息的吞吐量，producer 可以通过随机或者 hash 等方式，将消
息平均发送到多个 partition 上，以实现负载均衡。

批量发送

是提高消息吞吐量重要的方式，Producer 端可以在内存中合并多条消息后，以一次请求的方式发
送了批量的消息给 broker，从而大大减少 broker 存储消息的 IO 操作次数。但也一定程度上影响
了消息的实时性，相当于以时延代价，换取更好的吞吐量。

压缩（ GZIP 或 Snappy ）

Producer 端可以通过 GZIP 或 Snappy 格式对消息集合进行压缩。Producer 端进行压缩之后，在
Consumer 端需进行解压。压缩的好处就是减少传输的数据量，减轻对网络传输的压力，在对大
数据处理上，瓶颈往往体现在网络上而不是 CPU（压缩和解压会耗掉部分 CPU 资源）。

Consumer Group

同一 Consumer Group 中的多个 Consumer 实例，不同时消费同一个 partition，等效于队列模
式。partition 内消息是有序的，Consumer 通过 pull 方式消费消息。Kafka 不删除已消费的消息
对于 partition，顺序读写磁盘数据，以时间复杂度 O(1)方式提供消息持久化能力。

基于 Kafka 监听 DB 数据变更并同步副表与 ES 的办法

今天分享一个最近在业务开发中涉及使用到的很巧妙的小 tip。业务背景是有一张记录后台的 DB 主表，数据量达到百万级别。后台会涉及到一些字段筛选等，所以如果每次查询直接走 DB 的话会效率较慢。于是该业务采用的是当有用户或者后台运营进行数据变更时通过消息队列及时将 DB 变化及时同步至 ES。此刻有一个新的业务后台开 ..

零拷贝的原理

[图片] 概述如果学习过 Kafka 的小伙伴，想必对零拷贝技术并不陌生，Kafka 对 Producer 和 Consumer 能有这么快的处理能力，很大程度上就是依赖于对零拷贝的支持。零拷贝是什么呢？它和传统模式有什么区别呢？我们该如何用呢？接下来这篇文章将会就这些问题给您娓娓道来。传统方式在我们编写程 ..

zeebe 集成 kafka

[图片] zeebe 集成 kafka Apache Kafka 是一种高度可伸缩，具有弹性和持久性的事件总线。它可能用于高吞吐量消息传递，事件驱动的体系结构，作为事件存储或支持事件流体系结构。 zeebe 是云原生的工作流引擎，主要用于微服务编排在实际的工作中遇到了微服务编排和事件驱动架构设计等一系列问题。而 ze ..

基于 Kafka 的消息中间件的综述与使用示例 - 中间件结课小论文

[图片] 1.摘要本文简要概述了 Kafka 的由来，并详细说明了 Kafka 的架构和设计原则。在充分了解了 Kafka 相关原理的基础上，尝试使用虚拟机搭建了一个单机多实例的 Kafka 及其所需的 Zookeeper 集群。最后在已有集群基础上整合 Spring Boot,构建了一个简易的 Kafka 使用用例 ..

Flink 实战之网站日志 ETL

应用场景：数据清洗【实时 ETL】数据报表 1、数据清洗【实时 ETL】 [图片] 1.1、需求分析针对算法产生的日志数据进行清洗拆分算法产生的日志数据是嵌套大 JSON 格式（json 嵌套 json），需要拆分打平针对算法中的国家字段进行大区转换最后把不同类型的日志数据分别进行存储更多内容请访问：ht ..

S3 云同步使用青云 QingCloud 的用户请及时更换服务商！

※ 青云 QingCloud 用户请注意！从 2024.4.24 开始，青云 QingCloud 对象存储 OSS 不再向个人用户提供服务 [图片] [图片] 用青云的用户应该都发现无法同步了（提示同步失败：锁定云端同步目录失败，请稍后再试），这波操作直接坑死人，云端数据都拿不回来了（刚刚收到相关处理方式的回复，见底 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

kafka 的详解

Kafka 概念

Kafka 数据存储设计

数据文件分段 segment（顺序读写、分段命令、二分查找）

数据文件索引（分段索引、稀疏存储）

生产者设计

负载均衡（partition 会均衡分布到不同 broker 上）

批量发送

压缩（ GZIP 或 Snappy ）

Consumer Group

相关帖子

基于 Kafka 监听 DB 数据变更并同步副表与 ES 的办法

Kafka 的核心原理

零拷贝的原理

zeebe 集成 kafka

基于 Kafka 的消息中间件的综述与使用示例 - 中间件结课小论文

Flink 实战之网站日志 ETL

S3 云同步使用青云 QingCloud 的用户请及时更换服务商！

欢迎来到这里！

kafka 的详解

Kafka 概念

Kafka 数据存储设计

数据文件分段 segment（ 顺序读写、分段命令、二分查找 ）

数据文件索引（分段索引、 稀疏存储 ）

生产者设计

负载均衡（partition 会均衡分布到不同 broker 上）

批量发送

压缩（ GZIP 或 Snappy ）

Consumer Group

相关帖子

基于 Kafka 监听 DB 数据变更并同步副表与 ES 的办法

Kafka 的核心原理

零拷贝的原理

zeebe 集成 kafka

基于 Kafka 的消息中间件的综述与使用示例 - 中间件结课小论文

Flink 实战之网站日志 ETL

S3 云同步使用青云 QingCloud 的用户请及时更换服务商 ！

欢迎来到这里！

数据文件分段 segment（顺序读写、分段命令、二分查找）

数据文件索引（分段索引、稀疏存储）

S3 云同步使用青云 QingCloud 的用户请及时更换服务商！