多工策略不适用于在多台主机上进行cpu扩展

问题描述

我编写的代码需要扩展到具有20个cpu内核的多个主机。我曾经使用过多种工作策略。我们基本上专注于在Tensorflow 2.3中对CPU“ NOT ON GPU”进行分布式培训。我能够在所有节点上的集群上成功运行代码。

现在是问题-

我看到缩放问题。我已经在单个主机和5个不同的主机上运行它。在增加主机数量方面,我看不到任何性能提升。 1个机器对2个,4个或5个机器来说,每个时期和整个训练所花费的时间是相同的。没有性能提升。

比起我留下的代码,我在具有相同设置的tensorflow文档中使用了该示例。 https://www.tensorflow.org/tutorials/distribute/multi_worker_with_keras
我看到的是相同的行为,而不是随着主机的增加而扩展。

有人可以帮我吗

  1. multiworkerstrategy是否不支持在多主机中对分布式cpu进行扩展?

任何解决问题的帮助都会非常有帮助。我被卡住了并且长时间调试。但无法进步。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...