使用 Windows env 在分布式集群上运行的 Spark 作业抱怨无法删除临时文件夹之一

问题描述

相同的 spark 作业在本地模式下运行良好。有没有办法配置 spark worker,以便它可以继续处理作业,即使它无法删除其中一个临时文件夹?
具有原始数据类型的 spark lambda 调用似乎在集群上运行良好,但是当我将 panda DF 作为参数包含在内时,我观察到了以下错误。 这是有关错误的更多详细信息。任何帮助表示赞赏。

py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 Failed 4 times,most recent failure: Lost task 0.3 in stage 0.0 (TID 3,10.173.138.98,executor 0): java.io.IOException: Failed to delete original file 'C:\Users\SSUVVA\AppData\Local\Temp\spark-13ea6c1e-0462-43e0-8d1a-510008f5aebb\executor-c62cc252-6fad-4446-8eca-546d7d9dabfe\spark-90fb5a66-67c4-4baf-97bc-0906e97359d0\broadcast4823832564960018342' after copy to 'C:\Users\SSUVVA\AppData\Local\Temp\spark-13ea6c1e-0462-43e0-8d1a-510008f5aebb\executor-c62cc252-6fad-4446-8eca-546d7d9dabfe\blockmgr-be9a1ae8-9c41-456f-a6a4-b4251647c940\37\broadcast_0_python'
    at org.apache.commons.io.FileUtils.moveFile(FileUtils.java:2835)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)