在SLURM服务器上为作业分配更多节点是否会增加可用RAM?

问题描述

我正在使用需要大量RAM的程序。目前,我正在SLURM群集上运行它。每个节点具有125GB RAM。将作业提交到单个节点时,由于内存不足,它最终将失败。我刚接触服务器时,我的问题很天真:

使用--nodes标志命令分配更多节点是否会增加提交作业的可用RAM?

例如: 当使用下面的命令分配10个节点而不是1个节点时,程序在与一个节点相同的位置失败。

 #SBATCH --nodes=10

是否还有其他方法可以将多个节点的RAM合并为一个作业? 任何建议都欢迎!

解决方法

这取决于您的程序,但很可能不是。

要在Slurm群集(或任何群集)上使用多个节点,您的程序需要以非常特定的方式进行设置,即。您需要进行节点间通信。通常,这是通过MPI完成的,整个程序必须围绕它进行设计。

因此,如果您的程序使用MPI,则它可能能够将工作负载分配到多个节点上。而且即使那样也不能保证内存较低,因为通常这不是并行化的目标。

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...