pytorch中验证数据集的分布式评估

问题描述

我正在使用一些 ready-made scripts 对我的模型进行分布式训练，但不太了解其背后的机制。基本上，它使用 torch.distributed 并且主脚本产生多个进程，但更新发生在同一个模型 (script) 中。但是，对验证数据集的验证是在不同的过程中单独完成的，我没有得到“整体”验证损失（请参阅 here）。如何将不同流程的验证结果结合起来以获得整体结果？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

distributed-computing multiprocessing parallel-processing pytorch