在一个SLURM作业中运行2个单个GPU程序

问题描述

在SLURM集群中,我正在运行2个单个GPU程序,但是一段时间后,我的其中一个程序被退出代码9(使用sacct找到)杀死了(这意味着“耗尽CPU时间”)根据{{​​3}})。现在,有一个48小时的限制,自另一个继续运行以来,还没有超过。我使用的脚本是

#!/bin/sh
#SBATCH --job-name=dual_job # Job name
#SBATCH --ntasks=2 # Run on a single CPU
#SBATCH --time=48:00:00 # Time limit hrs:min:sec
#SBATCH --output=logs.out # Standard output and error log
#SBATCH --cpus-per-task=4
#SBATCH --gres=gpu:2
#SBATCH --partition=q_2day-2G

srun --ntasks=1 --gres=gpu:1 -o logs1.out --exclusive script1.sh &
srun --ntasks=1 --gres=gpu:1 -o logs2.out --exclusive script2.sh &
wait

我在请求资源时犯了任何明显的错误吗?还是有其他方法可以实现相同的功能,即在同一工作中运行2个单个GPU程序?

有关群集的一些其他信息-它只有一个节点,带有8个GPU。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)