问题描述
我正在使用Scala spark 2.4.4
在Kafka上使用Sparks结构化流2.12
。
我的代码运行良好,可以满足我的所有需求。我使用foreachbatch进行计算并写入我的接收器。
因此,在某个固定点,我收到了一个批处理,该批处理指示im处于主题A的最新偏移量(或非常接近最新偏移量,比最新偏移量高2),主题B的偏移量要大得多,它达到了最新的目的。
从该批代码开始,代码急剧减慢,围绕DataFrame的每一行至少需要2分钟,甚至是最基本的select()
和first(1)
数据集本身甚至没有超过30 MB。(其他偏移量也从未出现过问题)
我当时正在通过调试查看Spark日志,偶然发现一条奇怪的调试消息,
DEBUG PoolingHttpClientConnectionManager: Closing connections idle longer than 60000 MILISECONDS
不用说我不要在我的代码中使用该库,这对我来说是透明的。
有人偶然发现这个问题/可以帮忙吗?
谢谢
C.potato
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)