RuntimeError：向后Cudnn RNN只能在训练模式下调用

问题描述

我第一次看到这个问题，在以前的Python项目中我从未遇到过这样的错误。这是我的训练代码：

def train(net,opt,criterion,ucf_train,batchsize,i):
    opt.zero_grad()
    total_loss = 0
    net=net.eval()
    net=net.train()
    for vid in range(i*batchsize,i*batchsize+batchsize,1):
    
        output=infer(net,ucf_train[vid])
        m=get_label_no(ucf_train[vid])
        m=m.cuda( )
        loss = criterion(output,m)
        loss.backward(retain_graph=True)
        total_loss += loss 
        opt.step()       #updates wghts and biases

    return total_loss/n_points

推断代码（网络，输入）

def infer(net,name):
    net.eval()
    hidden_0 = net.init_hidden()
    hidden_1 = net.init_hidden()
    hidden_2 = net.init_hidden()
    video_path = fetch_ucf_video(name)
    cap = cv2.VideoCapture(video_path)
    resize=(224,224)
    T=FrameCapture(video_path)
    print(T)
    lim=T-(T%20)-2
    i=0
    while(1):
      ret,frame2 = cap.read()
      frame2= cv2.resize(frame2,resize)
    #  print(type(frame2))
      if (i%20==0 and i<lim):
          input=normalize(frame2)     
          input=input.cuda()       
          output,hidden_0,hidden_1,hidden_2  = net(input,hidden_2)
      elif (i>=lim):
          break
      i=i+1 
    op=output  
    torch.cuda.empty_cache() 
    op=op.cuda() 
    return op

我收到此错误，我在this之后尝试model.train()，其中net是我的模型：

 RuntimeError                              Traceback (most recent call last)
<ipython-input-62-42238f3f6877> in <module>()
----> 1 train(net1,1,0)

2 frames
/usr/local/lib/python3.6/dist-packages/torch/autograd/__init__.py in backward(tensors,grad_tensors,retain_graph,create_graph,grad_variables)
    125     Variable._execution_engine.run_backward(
    126         tensors,--> 127         allow_unreachable=True)  # allow_unreachable flag
    128 
    129 

RuntimeError: cudnn RNN backward can only be called in training mode

解决方法

您应该删除net.eval()之后的def infer(net,name):呼叫

需要删除它，因为您在训练代码中调用了此推断函数。在整个训练过程中，您的模型都必须处于训练模式。

在调用eval之后，您也永远不会将模型重新设置为可训练，因此这是所得到异常的根源。如果要在测试用例中使用此推断代码，则可以使用if覆盖该用例。

在net.eval()赋值之后紧接的total_loss=0也没有用，因为在此之后立即调用net.train()。您也可以删除它，因为它会在下一行中和。

更新的代码

def train(net,opt,criterion,ucf_train,batchsize,i):
    opt.zero_grad()
    total_loss = 0
    net=net.train()
    for vid in range(i*batchsize,i*batchsize+batchsize,1):
        output=infer(net,ucf_train[vid])
        m=get_label_no(ucf_train[vid])
        m=m.cuda( )
        loss = criterion(output,m)
        loss.backward(retain_graph=True)
        total_loss += loss 
        opt.step()       #updates wghts and biases

    return total_loss/n_points

推断代码（净值，输入）

def infer(net,name,is_train=True):
    if not is_train:
        net.eval()
    hidden_0 = net.init_hidden()
    hidden_1 = net.init_hidden()
    hidden_2 = net.init_hidden()
    video_path = fetch_ucf_video(name)
    cap = cv2.VideoCapture(video_path)
    resize=(224,224)
    T=FrameCapture(video_path)
    print(T)
    lim=T-(T%20)-2
    i=0
    while(1):
      ret,frame2 = cap.read()
      frame2= cv2.resize(frame2,resize)
      #  print(type(frame2))
      if (i%20==0 and i<lim):
          input=normalize(frame2)     
          input=input.cuda()       
          output,hidden_0,hidden_1,hidden_2  = net(input,hidden_2)
      elif (i>=lim):
          break
      i=i+1 
    op=output  
    torch.cuda.empty_cache() 
    op=op.cuda() 
    return op

cudnn deep-learning pytorch recurrent-neural-network