问题描述
一段时间以来,我一直在研究Pytorch机器学习脚本。我的设置是,在运行训练文件后,将创建一个文件夹来保存模型的每一代。此文件夹一开始被定义为:
path = "/home/bledc/my_remote_folder/denoiser/models/{}".format(current_time)
我在远程计算机上运行了几天,最近我注意到一些奇怪的行为。今天早上,我检查了昨天创建的文件夹,找到其中保存的7个模型。该代码仍在远程计算机的后台运行。这里没什么异常。我将文件夹复制到本地计算机上进行测试,并进行了一些常规测试。我应该说我将远程文件夹安装到了本地计算机上,以便于复制。
我稍后返回文件夹,发现已经创建了一个新文件夹(如何?!),并以今天的时间命名,并且我所有的模型都已移至该文件夹。我的原始文件夹仍然在那里,但是是空的!以我的理解,path变量一开始就定义了一次,所以我不确定这怎么可能。
我仍然认为自己是一个初学者,我想我缺少一些在运行时如何访问这些文件夹的基本知识。难道是当我登录到远程计算机并查看目录时,该计算机不再具有访问权限吗?如何知道如何创建一个新文件夹,以及如何将当前内容移动到新文件夹中?与我已经安装了远程文件夹有关吗?
感谢任何可以帮助我理解这一点的人。
编辑:我希望有人可以向我提供高级操作系统的说明,但对于希望查看该代码的人来说:
def main():
Now = datetime.Now()
current_time = Now.strftime("%H_%M_%s")
# path = "/home/clement/Documents/light_code/models/{}".format(current_time)
path = "/home/bledc/my_remote_folder/denoiser/models/{}".format(current_time)
os.mkdir(path)
width = 256
# height = 256
num_epochs = 10
batch_size = 4
learning_rate = 0.0001
data_loader = load_dataset(batch_size,width)
print(device)
model = UNetWithresnet50Encoder().to(device)
criterion = nn.MSELoss()
optimizer = torch.optim.Adam(
model.parameters(),lr=learning_rate,weight_decay=1e-5)
for i in range(1,num_epochs+1):
train_loss = train_gray(i,data_loader,device,model,criterion,optimizer,i,path)
checkpoint(i,train_loss,path)
print("end")
if __name__ == '__main__':
main()
调用了某些函数,但是我绝对不会重新定义路径。检查点功能如下:
def checkpoint(epoch,path):
torch.save({
'epoch': epoch,'model_state_dict': model.state_dict(),'optimizer_state_dict': optimizer.state_dict(),'train_loss': train_loss
},path+"/model_epoch_{}.pt".format(epoch))
print("Epoch saved")
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)