在一个SLURM作业中运行2个单个GPU程序

问题描述

在SLURM集群中，我正在运行2个单个GPU程序，但是一段时间后，我的其中一个程序被退出代码9（使用sacct找到）杀死了（这意味着“耗尽CPU时间”）根据{{3}}）。现在，有一个48小时的限制，自另一个继续运行以来，还没有超过。我使用的脚本是

#!/bin/sh
#SBATCH --job-name=dual_job # Job name
#SBATCH --ntasks=2 # Run on a single CPU
#SBATCH --time=48:00:00 # Time limit hrs:min:sec
#SBATCH --output=logs.out # Standard output and error log
#SBATCH --cpus-per-task=4
#SBATCH --gres=gpu:2
#SBATCH --partition=q_2day-2G

srun --ntasks=1 --gres=gpu:1 -o logs1.out --exclusive script1.sh &
srun --ntasks=1 --gres=gpu:1 -o logs2.out --exclusive script2.sh &
wait

我在请求资源时犯了任何明显的错误吗？还是有其他方法可以实现相同的功能，即在同一工作中运行2个单个GPU程序？

有关群集的一些其他信息-它只有一个节点，带有8个GPU。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

slurm