slurm 提交得到 NonZeroExitCode 并且没有输出

问题描述

我正在向服务器提交作业。

  1. 我遇到了各种脚本的问题,即使只有一行:
#!/bin/bash
  echo "foo" > output.txt
  1. 用下面的sbatch命令提交后,没有输出文件/slurm.out/err文件。似乎一点都不兴奋。详细信息显示“Reason=NonZeroExitCode”。使用 --wrap 选项提交时也是如此。
sbatch -p sched_mem1TB_centos7 -c 12 -t 5-00:00:00 --mem=500000 -J jobname -e job.err my_scripts.sh
Submitted batch job 14899687
  1. 这种情况发生过几次,通常持续几个小时。

  2. 剧本已经很兴奋了。因此,我认为这与我的脚本无关。我有足够的空间。我不确定 inode 的用法

提前致谢。

JobId=14899687 JobName=alm6p1
   UserId=myname(187563) GroupId=myname(187563)
   Priority=11264 Nice=0 Account=mit_general QOS=normal
   JobState=Failed Reason=NonZeroExitCode Dependency=(null)
   Requeue=1 Restarts=0 BatchFlag=1 Reboot=0 ExitCode=1:0
   RunTime=00:00:00 TimeLimit=5-00:00:00 TimeMin=N/A
   SubmitTime=2021-03-04T16:01:45 EligibleTime=2021-03-04T16:01:45
   StartTime=2021-03-04T16:01:46 EndTime=2021-03-04T16:01:46
   PreemptTime=None SuspendTime=None SecsPreSuspend=0
   Partition=sched_mem1TB_centos7 AllocNode:Sid=login001:5658
   ReqNodeList=(null) ExcNodeList=(null)
   NodeList=node327
   BatchHost=node327
   NumNodes=1 Numcpus=40 cpus/Task=40 ReqB:S:C:T=0:0:*:*
   Socks/Node=* NtasksPerN:B:S:C=0:0:*:* CoreSpec=*
   MincpusNode=40 MinMemoryNode=800000M MinTmpdiskNode=0
   Features=(null) Gres=(null) Reservation=(null)
   Shared=OK Contiguous=0 Licenses=(null) Network=(null)
   Command=/path/to/my_dir/script.sh
   workdir=/path/to/my_dir
   StdErr=/path/to/my_dir/job.err
   StdIn=/dev/null
   StdOut=/path/to/my_dir/slurm-14899687.out

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)