如何找到导致节点失败的jobId?

问题描述

我知道sacctmgr命令可以列出具有原因的节点的事件历史记录。

sacctmgr show event Start=09/01-00:00 format=nodename,timestart,timeend,state,reason,user

此命令给出以下输出

gnodeXX         2020-09-04T20:21:34 2020-09-05T01:21:38  DRAIN               Kill task failed         root(ZZ)                      
gnodeXX         2020-09-09T16:44:55 2020-09-09T17:50:21  DOWN*                 Not responding    slurm(DDDD)

有什么方法可以获取导致节点失败的jobId或用户名,或者有关杀死失败的任务的任何信息?用户列提供所有结果root(ZZ)和slurm(DDDD)的两个输出之一,我不确定它们的含义。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...