Google AI Platform 上的所有超调试验均失败

问题描述

我想在 Google AI Platform 上启动一项训练作业,使用自定义容器进行一些超参数调整。我已阅读文档 here。具体来说,我对我的代码做了以下调整:

  • 在我的 Dockerfile 中,我安装了 cloudml-hypertune。
  • 在我的训练代码中: 我使用cloudml-hypertune通过调用来报告每次试验的结果 它的辅助函数report_hyperparameter_tuning_metric。 我为每个超参数添加了命令行参数,并处理 使用 argparse 进行参数解析。
  • 在我的工作请求中,我向 TrainingInput 对象添加一个 HyperparameterSpec,其名称与我使用的 report_hyperparameter_tuning_metric 函数名称相匹配

从日志中,我可以看到每次试验都没有错误地完成,但在作业控制台视图中,我可以看到以下内容

enter image description here

请注意,指标列 (recall@k) 或训练步骤中没有任何内容。我打印了我的指标只是为了看看它是否有一些价值,答案是肯定的。我的 Keras 代码如下:

model.fit(...)
recall_at_k = evaluate(model)

hpt = hypertune.HyperTune()
hpt.report_hyperparameter_tuning_metric(hyperparameter_metric_tag='recall@k',metric_value=recall_at_k,global_step=args.epochs)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)