AI平台培训作业以非零状态1退出终止原因:错误

问题描述

我的Tensorflow培训作业正在以非零状态1退出,并且没有给出任何有用的错误消息。追溯似乎是隐藏的,并且提供的链接是相似的。这是日志输出内容

enter image description here

我已经检查了具有 Cloud ML Service Agent 角色的服务帐户,该帐户具有 logging.logEntries.create 的权限。 Cloud ML Service代理的描述还指出:

Cloud ML服务代理可以充当日志编写器,Cloud Storage管理员,Artifact Registry阅读器,BigQuery写作者和服务帐户访问令牌创建者。

所以我假设它具有将日志写入记录器的权限...我的问题是我该如何解决为什么我的工作失败的原因?

解决方法

这可能是您的培训虚拟机实例没有足够的权限来写入日志。获取VM的服务帐户名称,转到IAM角色并将Log writer角色分配给该服务帐户。