lur强的工作变得饥饿

问题描述

所以,我的Slurm GPU队列有一个问题,有时会导致工作匮乏。

基本上,我有许多具有1个GPU,2个GPU,3个GPU的节点,只有2个具有4个GPU。情况如下:

  1. 用户A提交了4个GPU作业
  2. Slurm为用户A的工作分配了一个4 GPU节点
  3. 用户B,C和D提交了1个GPU作业,并且全部分配给了第二个4个GPU节点
  4. 用户E提交了一个4 GPU作业,由于没有资源可以满足其需求,因此它正在等待处理
  5. 用户F,G,H,I ...等提交1个GPU作业,一旦用户B,C或D的任何作业完成,该作业便立即分配给4个GPU节点
  6. 更多用户继续提交作业,并且4个GPU节点忙于这1个GPU作业
  7. 用户E 4 GPU作业永远等待着,因为这4个GPU永远无法一起使用

知道我已将1个GPU节点的权重设置为1,将2个GPU节点的权重设置为3,将3个GPU节点的权重设置为4,将4个GPU节点的权重设置为4,因此,如果没有,则用户优先级将分配给任何可用的1个GPU作业2,如果不是3,最后是4。

这里有任何消除或减少饥饿的建议吗?我有等待数周的工作!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)