如何使用 Pytorch 将不同的模型分发到多个节点?

问题描述

我有一个 pytorch 任务,它与 DP 一起工作:

一个相同的网络复制到多个共享相同权重的 GPU,但每个副本接收不同的数据批次,因此它通过增加等效批次大小来加速训练。

但现在我希望在训练流程中引入多个不同的网络: net_A、net_B、net_C,它们属于不同的架构,不共享权重。

是否可以将每个网络分配到不同的节点(1个节点有4个GPU),这样“net_A”仍然可以享受“node_A”的4个GPU上的DP加速,而“net_B”占用“node_B” ”等?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)