问题描述
我编写的代码需要扩展到具有20个cpu内核的多个主机。我曾经使用过多种工作策略。我们基本上专注于在Tensorflow 2.3中对CPU“ NOT ON GPU”进行分布式培训。我能够在所有节点上的集群上成功运行代码。
现在是问题-
我看到缩放问题。我已经在单个主机和5个不同的主机上运行它。在增加主机数量方面,我看不到任何性能提升。 1个机器对2个,4个或5个机器来说,每个时期和整个训练所花费的时间是相同的。没有性能提升。
比起我留下的代码,我在具有相同设置的tensorflow文档中使用了该示例。
https://www.tensorflow.org/tutorials/distribute/multi_worker_with_keras
我看到的是相同的行为,而不是随着主机的增加而扩展。
有人可以帮我吗
- multiworkerstrategy是否不支持在多主机中对分布式cpu进行扩展?
任何解决问题的帮助都会非常有帮助。我被卡住了并且长时间调试。但无法进步。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)