我可以在 Azure ML 的一次培训中使用两个计算集群吗？

问题描述

我有两个 V100 GPU 计算集群（命名为 - 具有 2 个节点的“Cluster1”和具有 2 个节点的“Cluster2”），我想在我的训练脚本（Pytorch 训练）中同时使用这两个集群。

现在，我可以在我的计算目标代码中使用“Cluster1”或“Cluster2”，而我的训练代码正在获得 1 个 V100 GPU 进行训练。任何人都可以帮助我如何在我的 Compute 目标代码中使用两个集群（Cluster1 和 Cluster2），以便我的训练脚本可以看到 2 个 V100 GPU 而不是 1 个 GPU。

你能告诉我这是如何实现的吗，还请让我了解一个 V100 GPU 集群中的 2 个节点是什么意思（我确定不是两个 GPU）。但是，一个集群中的 2 个节点意味着什么以及它是如何工作的？？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

azureml azureml-python-sdk computer-vision python-3.x