问题描述
我正在按照 tf.distribute.experimental.ParameterServerStrategy 的官方说明使用 Tensorflow v2.4.1 的 ParameterServerStrategy 实现一个简单的分布式训练应用。
我将训练分布在 3 台不同的机器上。通过启动应用程序,一个 ps、一个协调器和一个工作人员将在不同的机器上运行同一段代码。这段代码可以从我的 gist 中找到。但是,协调器无法成功地将计算工作分配给 ps 和 worker。你能帮我解决这个问题吗?
ps、worker、coordinator的日志可以从gist评论中找到。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)