模型训练比它应该的慢得多，并且 slurm 输出一直说作业步骤创建仍然被禁用，正在重试请求的节点很忙

问题描述

我最近开始使用集群计算，并提交了我的第一个 sbatch 文件，看起来像这样。

#!/bin/bash
#SBATCH --time=5:00:00
#SBATCH --mem-per-cpu=5G
#SBATCH --ntasks=4

srun -n1 python first.py &
srun -n1 python second.py &
srun -n1 python third.py &
srun -n1 python fourth.py &
wait

这运行得非常快（不到一个小时），我非常兴奋，但是在随后的脚本和重新运行这个脚本时，即使请求 24 小时，作业在完成之前就超时了，slurm 输出更加混乱并且不断输出以下错误。

srun Job step creation still disabled,retrying (Requested nodes are busy)

最后，也许最奇怪的是，这些 .py 脚本中的每一个都将一些模型训练结果保存到 pkl 中，并且结果都是相同的……这是不可能的，因为它们包含高度的随机性。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

cluster-computing machine-learning slurm