解决 spark streaming 集成 kafka 时只能读取每个 topic 的其中一个分区数据的问题

1. 问题描述

我创建了一个名称为 myTest 的 topic，该 topic 有三个分区,在我的应用中 spark streaming 以 direct 方式连接 kakfa，但是发现只能消费一个分区的数据，多次更换 comsumer group 依然如此。

2 环境配置

kafka 集群环境

主机	IP	操作系统	kakfa
node1	192.168.1.101	Centos 6.5	kafka_2.11-0.10.1.1
node2	192.168.1.102	Centos 6.5	kafka_2.11-0.10.1.1
node3	192.168.1.103	Centos 6.5	kafka_2.11-0.10.1.1

应用依赖：spark 版本是 2.1.1、kakfa 版本是 0.10.1.1；
maven 依赖配置如下

<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming_2.11</artifactId>
<version>2.1.1</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
<version>$2.1.1</version>
</dependency>
<dependency>
<groupId>org.apache.kafka</groupId>
<artifactId>kafka_2.11</artifactId>
<version>0.10.1.1</version>
</dependency>

3. 解决方案

经过查阅相关资料发现是由于 Kafka 0.10.1.1 的 bug 导致的。其实不仅仅是 0.10.1.1，另外 0.10.1.0 和 0.10.0.2 也有这个问题。详细描述参考 https://issues.apache.org/jira/browse/KAFKA-4547
最后我将 kafka 版本降到了 0.10.0.1，解决了这个问题。

<dependency>
<groupId>org.apache.kafka</groupId>
<artifactId>kafka_2.11</artifactId>
<version>0.10.0.1</version>
</dependency>

基于 Kafka 监听 DB 数据变更并同步副表与 ES 的办法

今天分享一个最近在业务开发中涉及使用到的很巧妙的小 tip。业务背景是有一张记录后台的 DB 主表，数据量达到百万级别。后台会涉及到一些字段筛选等，所以如果每次查询直接走 DB 的话会效率较慢。于是该业务采用的是当有用户或者后台运营进行数据变更时通过消息队列及时将 DB 变化及时同步至 ES。此刻有一个新的业务后台开 ..

零拷贝的原理

[图片] 概述如果学习过 Kafka 的小伙伴，想必对零拷贝技术并不陌生，Kafka 对 Producer 和 Consumer 能有这么快的处理能力，很大程度上就是依赖于对零拷贝的支持。零拷贝是什么呢？它和传统模式有什么区别呢？我们该如何用呢？接下来这篇文章将会就这些问题给您娓娓道来。传统方式在我们编写程 ..

zeebe 集成 kafka

[图片] zeebe 集成 kafka Apache Kafka 是一种高度可伸缩，具有弹性和持久性的事件总线。它可能用于高吞吐量消息传递，事件驱动的体系结构，作为事件存储或支持事件流体系结构。 zeebe 是云原生的工作流引擎，主要用于微服务编排在实际的工作中遇到了微服务编排和事件驱动架构设计等一系列问题。而 ze ..

基于 Kafka 的消息中间件的综述与使用示例 - 中间件结课小论文

[图片] 1.摘要本文简要概述了 Kafka 的由来，并详细说明了 Kafka 的架构和设计原则。在充分了解了 Kafka 相关原理的基础上，尝试使用虚拟机搭建了一个单机多实例的 Kafka 及其所需的 Zookeeper 集群。最后在已有集群基础上整合 Spring Boot,构建了一个简易的 Kafka 使用用例 ..

Flink 实战之网站日志 ETL

应用场景：数据清洗【实时 ETL】数据报表 1、数据清洗【实时 ETL】 [图片] 1.1、需求分析针对算法产生的日志数据进行清洗拆分算法产生的日志数据是嵌套大 JSON 格式（json 嵌套 json），需要拆分打平针对算法中的国家字段进行大区转换最后把不同类型的日志数据分别进行存储更多内容请访问：ht ..

(运维篇)- 使用 docker 搭建 hadoop-hive-spark 集群 (一)

[图片] 一、安装 docker 1.1 使用 brew cask 安装由于是 Mac 系统，直接使用 brew 最为方便 brew cask install docker 1.2 镜像替换为加速镜像 [图片] 如上图得两个镜像地址，填入后，点击 apply&restart 重启 docker https:/ ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于