RPC失败，状态为“不可用：套接字已关闭”，使用PyTorch在Cloud TPU上训练FairSeq RoBERTa时出错

问题描述

我按照教程“ Pre-training FairSeq RoBERTa on Cloud TPU using Pytorch”设置了可抢占（v2-8）TPU环境并训练了我的RoBERTa模型。 PyTorch env基于文档指示的torch-xla-1.6。但是，它不会像往常那样在GPU中输出任何训练日志，并且会在2-3天（间隔12小时）内两次抛出RPC故障警告（请参阅下文-网络端点已在此处删除）。

我每个时期的训练步骤为161,529。根据该文档，v2-8将按照我配置的5个时间段花费80个小时。但是，我的工作似乎挂在那里。

有什么建议吗？

 W    4566 tensorflow/core/distributed_runtime/rpc/grpc_remote_master.cc:160] RPC Failed with status = "Unavailable: Socket closed" and grpc_error_string = "{"created":"@1599580717.037250202","description":"Error received from peer ipv4:<my_network_endpoint>:8470","file":"external/com_github_grpc_grpc/src/core/lib/surface/call.cc","file_line":1056,"grpc_message":"Socket closed","grpc_status":14}",maybe retrying the RPC

解决方法

在这种情况下，您的TPU可能已被抢占。请尝试使用不可抢占的TPU。

fairseq pytorch roberta-language-model tpu