问题描述
所以,我的Slurm GPU队列有一个问题,有时会导致工作匮乏。
基本上,我有许多具有1个GPU,2个GPU,3个GPU的节点,只有2个具有4个GPU。情况如下:
- 用户A提交了4个GPU作业
- Slurm为用户A的工作分配了一个4 GPU节点
- 用户B,C和D提交了1个GPU作业,并且全部分配给了第二个4个GPU节点
- 用户E提交了一个4 GPU作业,由于没有资源可以满足其需求,因此它正在等待处理
- 用户F,G,H,I ...等提交1个GPU作业,一旦用户B,C或D的任何作业完成,该作业便立即分配给4个GPU节点
- 更多用户继续提交作业,并且4个GPU节点忙于这1个GPU作业
- 用户E 4 GPU作业永远等待着,因为这4个GPU永远无法一起使用
知道我已将1个GPU节点的权重设置为1,将2个GPU节点的权重设置为3,将3个GPU节点的权重设置为4,将4个GPU节点的权重设置为4,因此,如果没有,则用户优先级将分配给任何可用的1个GPU作业2,如果不是3,最后是4。
这里有任何消除或减少饥饿的建议吗?我有等待数周的工作!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)