即使协调器开始调度任务,ParameterServer 和 Worker 也会阻塞

问题描述

我正在按照 tf.distribute.experimental.ParameterServerStrategy 的官方说明使用 Tensorflow v2.4.1 的 ParameterServerStrategy 实现一个简单的分布式训练应用。

我将训练分布在 3 台不同的机器上。通过启动应用程序,一个 ps、一个协调器和一个工作人员将在不同的机器上运行同一段代码。这段代码可以从我的 gist 中找到。但是,协调器无法成功地将计算工作分配给 ps 和 worker。你能帮我解决这个问题吗?

ps、worker、coordinator的日志可以从gist评论中找到。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)