通过互联网并行进行Pytorch分布式数据

问题描述

我正在尝试使用this tutorial中建议的“ pdsh”协调工具同时将多个节点同时切换到这些节点上,从而在多个节点上使用“分布式数据并行”来训练网络。

>

具体来说,给定一台具有公共IP地址“ Ip0”的本地计算机和两个分别具有“公共IP地址”“ Ip1”和“ Ip2”的远程节点,要从本地计算机上对其进行远程培训,该如何做这样的设置?

另外,如何在每个远程节点上运行训练脚本之前确保两个远程节点可以相互访问?

谢谢。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)