如何使用 DDP 训练模型运行 nnU-Net 推理？

问题描述

我正在尝试让 nnU-Net - 一种深度学习分割方法 (https://github.com/MIC-DKFZ/nnUNet) - 在使用 nnUNetTrainerV2_DDP 在训练数据集上完成我的模型训练后运行推理。

我在存储模型的文件夹上运行 nnUNet_change_trainer_class，我看到 checkpoint.model 和 modal_best pkl 文件在文件夹中更新，但是在我的测试集上开始预测后，我得到以下错误：

AssertionError: model output folder not found. Expected: E:\Pieterjan\nnUNet_project\nnUNet_trained_models\nnUNet\3d_fullres\Task101_Lung\nnUNetTrainerV2__nnUNetPlansv2.1

nnUNetTrainerV2__nnUNetPlansv2.1 似乎是使用仅在一个 GPU 上训练的模型开始推理时使用的默认值，但我使用了两个 GPU（因此我使用了 nnU-Net 提供的 _DDP trainer）。我也尝试简单地重命名文件夹，但问题仍然存在。

如何设置 nnU-Net 以使用 nnUNetTrainerV2_DDP__nnUNetPlansv2.1 对我的测试数据集进行推理？

提前干杯！

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

deep-learning distributed-training image-segmentation pytorch