为大量的卡夫卡消费者提供持续的重新平衡

问题描述

Confluent Platform版本5.4.2

在Kubernetes中部署了3个broker设置

在一个主题中，我们有1024个分区，在消费者方面，我们正在执行IO操作，因此我们决定增加特定组的消费者数量

直到832年为止，我们一直没有增加消费者数量，但是除此之外，我们开始通过以下信息消息观察到持续的重新平衡

[2020-08-12 07:08:42,462] INFO [GroupCoordinator 1]: Preparing to rebalance group agent.async.request.consumer in state PreparingRebalance with old generation 87 (__consumer_offsets-4) (reason: removing member agent12.topic.org.agent.async.request.event.56-3b78bb07-2430-401e-9d68-91aded0bda89 on heartbeat expiration) (kafka.coordinator.group.GroupCoordinator)
[2020-08-12 07:08:42,511] INFO [GroupCoordinator 1]: Stabilized group agent.async.request.consumer generation 88 (__consumer_offsets-4) (kafka.coordinator.group.GroupCoordinator)
[2020-08-12 07:08:43,153] INFO [GroupCoordinator 1]: Preparing to rebalance group agent.async.request.consumer in state PreparingRebalance with old generation 88 (__consumer_offsets-4) (reason: Adding new member agent4.topic.org.agent.async.request.event.0-ff4061a4-41e4-4b20-8d47-17f2dcffb073 with group instanceid None) (kafka.coordinator.group.GroupCoordinator)
[2020-08-12 07:08:52,511] INFO [GroupCoordinator 1]: Member agent5.topic.org.agent.async.request.event.12-5a847d59-442e-43ad-a8f3-232ef36575bc in group agent.async.request.consumer has Failed,removing it from the group (kafka.coordinator.group.GroupCoordinator)

每次随机不同的消费者成员失败，如经纪人领导者日志中所示，这导致持续的重新平衡。

消费者方面，我们没有发现任何会阻止消费者发送心跳并且系统处于空闲状态的GC问题，我们在轮询超时方面也没有问题

并且消费者分布在多个Kubernetes Pod中，显示我们分配了足够资源的每个Pod

作为一种解决方法，我们在消费者中将Hear.beat.interval设置为6秒，将session.time.out设置为20秒，我们现在没有观察到重新平衡，现在消费者已连接到Kafka

我想了解为什么我们需要在消费者端更改上述参数？同时也可以针对大量消费者调整卡夫卡端的任何设置吗？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

apache-kafka kafka-consumer-api