torch.no_grad影响模型的准确性

问题描述

我收到一个错误“ CUDA内存不足”，然后将torch.no_grad（）函数添加到了我的代码中。这会影响我的准确性吗？

for iters in range(args.iterations):

with torch.no_grad():
    encoded,encoder_h_1,encoder_h_2,encoder_h_3 = encoder(
    res,encoder_h_3)

with torch.no_grad():
    code = binarizer(encoded)

with torch.no_grad():
    output,decoder_h_1,decoder_h_2,decoder_h_3,decoder_h_4 = decoder(
    code,decoder_h_4)

res = res - output.detach()
codes.append(code.data.cpu().numpy())
torch.cuda.empty_cache()
print('Iter: {:02d}; Loss: {:.06f}'.format(iters,res.data.abs().mean()))

解决方法

torch.no_grad()仅禁用对以后计算梯度所需的所有计算的跟踪。

在纯推理模式下，它不会对准确性产生任何影响，因为那里不需要渐变。当然，在训练期间您不能使用它，因为我们需要渐变来训练和优化。

通常，如果您要进行推断，则总是希望将网络设置为评估模式并禁用渐变。这样可以节省运行时间和内存消耗，并且不会影响准确性。

回答类似的问题，解释eval()和no_grad() https://discuss.pytorch.org/t/model-eval-vs-with-torch-no-grad/19615/2

torch.no_grad()基本上跳过了权重上的梯度计算。这意味着您不会更改指定图层中的任何权重。如果您是训练过的预训练模型，则可以在除完全连接的层或分类器层之外的所有层上使用torch.no_grad()。

如果您要从头训练网络，这不是一件好事。您应该考虑减少培训次数或应用torch.no_grad()部分培训。下面是一个示例。

for iters in range(args.iterations):

if iters % 2 == 0:
    with torch.no_grad():
        encoded,encoder_h_1,encoder_h_2,encoder_h_3 = encoder(
        res,encoder_h_3)
else:
    with torch.no_grad():
        encoded,encoder_h_3)

这是一个简短的示例。这可能会使您的训练时间更长一些，但是您将能够在不减少层数的情况下训练网络。重要的是，您不应在每次迭代或每次更新时都更新所有图层。网络的某些部分应以指定的频率进行更新。注意：这是实验方法

根据PyTorch文档：

当您确定不会调用Tensor.backward（）时，禁用梯度计算对于推断很有用。它将减少原本需要require_grad = True的计算的内存消耗。

因此，这取决于您打算做什么。如果您要训练模型，则可以，这会影响您的准确性。

image-compression model model python pytorch torch torch