我的 Google Colab PRO 在训练期间断开连接 - 如何保存和恢复训练

问题描述

我正在使用 OpenCV AI Kit 进行训练。这是link。我正在运行 Google Colab 的 PRO 版本。但是现在它会运行到 17500 个纪元,然后断开连接,我的所有文件和进度都将丢失。这意味着我必须重新开始训练并降低我的 epoch 数,这并不理想。

我在一个较小的数据集上运行了这个特定的 Colab,它运行良好。但是现在在更大的数据集上,如果运行时完全断开连接,进而中断我的训练进度,我将希望继续我的训练。我还有一个调用 Collab 的 Chrome 插件,它可以保持运行时的运行,并且我已经实现了确保我的 Collab 上有活动的代码。但是经过一定的小时数后,我的所有进度都丢失了。我还查看了有关此主题的相关帖子,但没有解决我的问题。

RAM 和磁盘空间偏低,因此不会耗尽内存或磁盘空间......我的想法已经用完了。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)