我可以在 Azure ML 的一次培训中使用两个计算集群吗?

问题描述

我有两个 V100 GPU 计算集群(命名为 - 具有 2 个节点的“Cluster1”和具有 2 个节点的“Cluster2”),我想在我的训练脚本(Pytorch 训练)中同时使用这两个集群。

现在,我可以在我的计算目标代码中使用“Cluster1”或“Cluster2”,而我的训练代码正在获得 1 个 V100 GPU 进行训练。任何人都可以帮助我如何在我的 Compute 目标代码中使用两个集群(Cluster1 和 Cluster2),以便我的训练脚本可以看到 2 个 V100 GPU 而不是 1 个 GPU。

你能告诉我这是如何实现的吗,还请让我了解一个 V100 GPU 集群中的 2 个节点是什么意思(我确定不是两个 GPU)。但是,一个集群中的 2 个节点意味着什么以及它是如何工作的??

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)