YARN RM不释放资源

问题描述

我正在用纱线作为Resource Manager(RM)运行spark。我提交的应用程序尝试次数最多为2,即spark.yarn.maxAppAttempts=2。由于内存问题,应用程序之一正在处理大约3 TB的数据,try1失败(在处理10个表中的5个表之后),尝试2开始了。即使try1失败,YARN也不会释放资源(执行程序)以将其用于尝试2。无法理解YARN为什么不释放资源。下面是配置文件

spark.executor.memory=30G
spark.executor.cores=5
spark.executor.instances=95
spark.yarn.executor.memoryOverhead=8G

可用的执行程序总数为100,其中我尝试使用95,尝试1尝试使用所有95的执行程序。尝试1失败后,尝试2从5个执行程序开始。根据我的理解,尝试2应该从95个执行者开始,例如尝试1,因为尝试1失败,并且所有资源都可以用于尝试2。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)