问题描述
由于节点崩溃或我说AWS Spot实例被带走了,我试图恢复/重新提交卡住的作业(在SGE调度程序上运行)?有人可以帮助恢复这些工作吗?我一直在尝试了解 qsub
的用法,但无法进行配置以自动重新提交此类作业。
仅使用 qconf
和 root
也无法使用 sge_admin
命令配置我的队列用户可以运行此命令,我确实具有 root
-privileges,但要求我设置 SGE_ROOT
环境变量,我确实做了,但仍然保留抛出错误以设置变量。
我们将不胜感激。
解决方法
来自 qsub 手册页:
-r y[es]|n[o]
Available for qsub and qalter only.
Identifies the ability of a job to be rerun or not.
If the value of -r is 'yes',the job will be rerun if the job was
aborted without leaving a consistent exit state.
(This is typically the case if the node on which the job is running
crashes). If -r is 'no',the job will not be rerun under any circumstances.
Interactive jobs submitted with qsh,qrsh or qlogin are not rerunnable.
Qalter allows changing this option even while the job executes.
所以添加
#$ -r y
在你的工作脚本中应该满足这一点。