问题描述
我正在开发一个基于 Web 的工具(名为 cloudcopasi),该工具从用户那里获取作业并将其提交给 bosco 资源(计算节点)。我在 Linux CentOS 7 上使用 bosco 版本(condor 8.8.12)。Web 界面允许用户添加用户可用于提交作业的 bosco 池。但是,当我尝试提交作业时,它失败了。我也尝试使用以下命令测试池:
bosco_cluster --test
…..
Testing bosco submission...Passed!
Submission and log files for this job are in /home/cloudcopasi/bosco/local.bosco/bosco-test/boscotest.LTA07r
Waiting for jobmanager to accept job...Passed
Checking for submission to remote slurm cluster (Could take ~30 seconds)...Failed
Showing last 5 lines of logs:
01/06/21 13:34:03 [3800] Gahp Server (pid=3815) exited with status 1 unexpectedly
01/06/21 13:34:08 [3800] gahp server not up yet,delaying ping
01/06/21 13:34:08 [3800] No jobs left,shutting down
01/06/21 13:34:08 [3800] Got SIGTERM. Performing graceful shutdown.
01/06/21 13:34:08 [3800] **** condor_gridmanager (condor_GRIDMANAGER) pid 3800 EXITING WITH STATUS 0
我不确定我缺少什么,但我不明白如何解决这个“Gahp 服务器”问题。
非常感谢任何帮助。
谢谢。
解决方法
这可能是 ssh 失败(网络、身份验证或授权)。 Bosco 运行以下命令访问远程集群提交主机:
<sbin>/remote_gahp <user>@<hostname> batch_gahp
您可以在命令行上运行它以获取有关问题的更多详细信息。 remote_gahp 是一个 bash 脚本,因此您可以根据需要进一步深入研究。