模型训练比它应该的慢得多,并且 slurm 输出一直说作业步骤创建仍然被禁用,正在重试请求的节点很忙

问题描述

我最近开始使用集群计算,并提交了我的第一个 sbatch 文件,看起来像这样。

#!/bin/bash
#SBATCH --time=5:00:00
#SBATCH --mem-per-cpu=5G
#SBATCH --ntasks=4

srun -n1 python first.py &
srun -n1 python second.py &
srun -n1 python third.py &
srun -n1 python fourth.py &
wait

这运行得非常快(不到一个小时),我非常兴奋,但是在随后的脚本和重新运行这个脚本时,即使请求 24 小时,作业在完成之前就超时了,slurm 输出更加混乱并且不断输出以下错误

srun Job step creation still disabled,retrying (Requested nodes are busy) 

最后,也许最奇怪的是,这些 .py 脚本中的每一个都将一些模型训练结果保存到 pkl 中,并且结果都是相同的……这是不可能的,因为它们包含高度的随机性。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)