GCP AI平台作业卡住

问题描述

我正在AI平台上运行一项作业，并且运行了一个多小时，没有进度，没有结果，没有日志（只有很少的日志显示其正在运行）

这是我使用的区域，机器类型，GPU：

  "region": "us-central1","runtimeVersion": "2.2","pythonVersion": "3.7","masterConfig": {
    "acceleratorConfig": {
      "count": "8","type": "NVIDIA_TESLA_K80"
    }
  }

AI平台工作

the AI Platform job

仅此工作的少量日志

only few logs for this job

我正在训练的模型很大，并且占用大量内存。作业只是挂在那里，没有任何进度，日志或错误。但是我注意到它在GCP上消耗了12.81 ML单位。通常，如果GPU内存不足，则会抛出“ OOM / resourceExhausted错误”。没有日志，我不知道那里出了什么问题。

我以较小的输入维度运行了另一项工作，并在12分钟内成功完成：

成功的工作

successed job

此外，我在训练过程中使用了tf.MirroredStrategy，以便它可以在GPU上分布。

对此有何想法？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

gcp-ai-platform-training google-ai-platform google-cloud-platform tensorflow tensorflow2.0