问题描述
我有两个 V100 GPU 计算集群(命名为 - 具有 2 个节点的“Cluster1”和具有 2 个节点的“Cluster2”),我想在我的训练脚本(Pytorch 训练)中同时使用这两个集群。
现在,我可以在我的计算目标代码中使用“Cluster1”或“Cluster2”,而我的训练代码正在获得 1 个 V100 GPU 进行训练。任何人都可以帮助我如何在我的 Compute 目标代码中使用两个集群(Cluster1 和 Cluster2),以便我的训练脚本可以看到 2 个 V100 GPU 而不是 1 个 GPU。
你能告诉我这是如何实现的吗,还请让我了解一个 V100 GPU 集群中的 2 个节点是什么意思(我确定不是两个 GPU)。但是,一个集群中的 2 个节点意味着什么以及它是如何工作的??
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)