使用新的JOBID重新排队

问题描述

是否可以设置一些重新排队选项,以便在Slurm决定重新排队作业时更改JOBID。 (例如,在节点故障之后) 这样,与第一个JOBID关联的文件夹就不会被覆盖。

谢谢

解决方法

重新排队的作业仍然是相同的作业,因此作业ID不会更改。

您可以做的是通过--no-requeue 防止重新排队。但是随后,您将需要手动或使用工作流管理器重新提交作业。

另一种选择是将重新启动计数添加到文件夹名称。例如,如果您的提交脚本中有一行,例如

WORKDIR=/some/path/${SLURM_JOB_ID}
mkdir -p $WORKDIR
cd $WORKDIR

您可以将其替换为

mkdir -p /some/path/${SLURM_JOB_ID}${SLURM_RESTART_COUNT}
mkdir -p $WORKDIR
cd $WORKDIR

在第一次运行时,将$SLURM_RESTART_COUNT保留为原来的行为,但是将其设置为1、2,依此类推,从而有效地给作业ID加上了重新排队编号。 >

对于输出文件的名称,可以使用--open-mode=append来在作业重新启动时避免覆盖输出文件。

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...