mpirun 在单个 slurm 分配中的不同时间启动的多个进程

问题描述

我正在尝试从单个 slurm 分配中启动多个 mpirun 命令,但在不同的时间和不同的核心数启动。

在脚本启动的那一刻

mpirun -np 2 python parallel_script.py input1
mpirun -np 3 python parallel_script.py input2

天真地这样做会导致所有进程都在相同的 (0-n) 内核上启动。这可以通过关闭进程绑定来解决单个节点的问题,但似乎无法将其扩展到多个节点作业。

是否有任何简单的机制可以告诉它跟踪正在使用的内核?或者,有没有办法指定 mpi 映射的偏移量,以便指定我希望进程在逻辑核心 X 而不是逻辑核心 0 上实际启动。

我试图避免在此处过分依赖调度程序实现,因为这对多个系统很有用。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)