pytorch中验证数据集的分布式评估

问题描述

我正在使用一些 ready-made scripts 对我的模型进行分布式训练,但不太了解其背后的机制。基本上,它使用 torch.distributed 并且主脚本产生多个进程,但更新发生在同一个模型 (script) 中。但是,对验证数据集的验证是在不同的过程中单独完成的,我没有得到“整体”验证损失(请参阅 here)。如何将不同流程的验证结果结合起来以获得整体结果?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)