问题描述
我最近开始使用 Google 的 AI 平台来训练我的深度神经网络模型。由于我们是一个相对较小的研究实验室,我尝试使用抢占式 TPU 和主机来训练模型。不幸的是,我没有在文档中找到如何执行此操作的方法。
目前,我正在使用以下 shell 脚本提交训练作业:
!/bin/bash
BUCKET_NAME="training_data"
JOB_NAME="PPI_$(date +"%Y%m%d_%H%M%s")"
JOB_DIR="gs://$BUCKET_NAME/hp_job_dir"
TRAINER_PACKAGE_PATH="./training_job_folder/trainer"
MAIN_TRAINER_MODULE="trainer.train"
HPTUNING_CONfig="training_job_folder/trainer/hptuning_config.yaml"
RUNTIME_VERSION=2.4
PYTHON_VERSION=3.7
REGION="us-central1"
SCALE_TIER=CUSTOM
MASTER_MACHINE_TYPE=n2-highmem-16
gcloud config set project vocal-unfolding-311510
gcloud ai-platform jobs submit training $JOB_NAME \
--job-dir $JOB_DIR \
--package-path $TRAINER_PACKAGE_PATH \
--module-name $MAIN_TRAINER_MODULE \
--region $REGION \
--runtime-version=$RUNTIME_VERSION \
--python-version=$PYTHON_VERSION \
--scale-tier $SCALE_TIER \
--config $HPTUNING_CONfig \
--master-machine-type $MASTER_MACHINE_TYPE
gcloud ai-platform jobs stream-logs $JOB_NAME
如果有人能建议我如何更改脚本以仅使用抢占式主机或 TPU,我将非常感激。
提前致谢, 曼努埃尔·S。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)