RPC失败,状态为“不可用:套接字已关闭”,使用PyTorch在Cloud TPU上训练FairSeq RoBERTa时出错

问题描述

我按照教程“ Pre-training FairSeq RoBERTa on Cloud TPU using Pytorch”设置了可抢占(v2-8)TPU环境并训练了我的RoBERTa模型。 PyTorch env基于文档指示的torch-xla-1.6。但是,它不会像往常那样在GPU中输出任何训练日志,并且会在2-3天(间隔12小时)内两次抛出RPC故障警告(请参阅下文-网络端点已在此处删除)。

我每个时期的训练步骤为161,529。根据该文档,v2-8将按照我配置的5个时间段花费80个小时。但是,我的工作似乎挂在那里。

有什么建议吗?

 W    4566 tensorflow/core/distributed_runtime/rpc/grpc_remote_master.cc:160] RPC Failed with status = "Unavailable: Socket closed" and grpc_error_string = "{"created":"@1599580717.037250202","description":"Error received from peer ipv4:<my_network_endpoint>:8470","file":"external/com_github_grpc_grpc/src/core/lib/surface/call.cc","file_line":1056,"grpc_message":"Socket closed","grpc_status":14}",maybe retrying the RPC

解决方法

在这种情况下,您的TPU可能已被抢占。请尝试使用不可抢占的TPU。