结构化流式Kafka减慢了最近的运行速度

我正在使用Scala spark 2.4.4在Kafka上使用Sparks结构化流2.12。我的代码运行良好，可以满足我的所有需求。我使用foreachbatch进行计算并写入我的接收器。

我订阅了多个主题，并且某些主题比其他主题接收更多的数据。

因此，在某个固定点，我收到了一个批处理，该批处理指示im处于主题A的最新偏移量（或非常接近最新偏移量，比最新偏移量高2），主题B的偏移量要大得多，它达到了最新的目的。

从该批代码开始，代码急剧减慢，围绕DataFrame的每一行至少需要2分钟，甚至是最基本的select()和first(1) 数据集本身甚至没有超过30 MB。（其他偏移量也从未出现过问题）

我当时正在通过调试查看Spark日志，偶然发现一条奇怪的调试消息，

DEBUG PoolingHttpClientConnectionManager: Closing connections idle longer than 60000 MILISECONDS

不用说我不要在我的代码中使用该库，这对我来说是透明的。

有人偶然发现这个问题/可以帮忙吗？

谢谢

C.potato

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）