结构化流式Kafka减慢了最近的运行速度

问题描述

我正在使用Scala spark 2.4.4在Kafka上使用Sparks结构化2.12。 我的代码运行良好,可以满足我的所有需求。我使用foreachbatch进行计算并写入我的接收器。

订阅了多个主题,并且某些主题比其他主题接收更多的数据。

因此,在某个固定点,我收到了一个批处理,该批处理指示im处于主题A的最新偏移量(或非常接近最新偏移量,比最新偏移量高2),主题B的偏移量要大得多,它达到了最新的目的。

从该批代码开始,代码急剧减慢,围绕DataFrame的每一行至少需要2分钟,甚至是最基本的select()first(1) 数据集本身甚至没有超过30 MB。(其他偏移量也从未出现过问题)

我当时正在通过调试查看Spark日志,偶然发现一条奇怪的调试消息,

DEBUG PoolingHttpClientConnectionManager: Closing connections idle longer than 60000 MILISECONDS

不用说我不要在我的代码中使用该库,这对我来说是透明的。

有人偶然发现这个问题/可以帮忙吗?

谢谢

C.potato

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)