如何恢复/重新提交卡住的SGE作业qsub的用法?

问题描述

由于节点崩溃或我说AWS Spot实例被带走了,我试图恢复/重新提交卡住的作业(在SGE调度程序上运行)?有人可以帮助恢复这些工作吗?我一直在尝试了解 qsub 用法,但无法进行配置以自动重新提交此类作业。

仅使用 qconf root 也无法使用 sge_admin 命令配置我的队列用户可以运行此命令,我确实具有 root -privileges,但要求我设置 SGE_ROOT 环境变量,我确实做了,但仍然保留抛出错误以设置变量。

我们将不胜感激。

解决方法

来自 qsub 手册页:

  -r y[es]|n[o]
       Available for qsub and qalter only.

       Identifies the ability of a job to be rerun or not.  
       If the value of -r is 'yes',the job will be rerun if the job was 
       aborted without leaving a consistent  exit state.  

       (This is typically the case if the node on which the job is running
       crashes).  If -r is 'no',the job will not be rerun under any circumstances.
       Interactive jobs submitted with qsh,qrsh or qlogin are not rerunnable.

       Qalter allows changing this option even while the job executes.

所以添加

#$ -r y

在你的工作脚本中应该满足这一点。