问题描述
我训练阿尔伯特模型来回答问题。我有20万对问答,我使用的是保存的2GB检查点文件。我在我的GPU GeForce 2070 RTX上对其进行了每次培训,每次保存1000个步骤,以保存检查点,在训练过程中,检查点model.ckpt-96000.data-00000-of-00001
文件仅保持135MB
的大小且不会增加。这有问题吗?
我看不到为什么使用小得多的数据集(如1500个问答对)时,它也会产生135 MB的检查点文件。尚未停止训练,但是通过这次训练该模型是否有可能改善?
解决方法
在训练模型时,您可以将权重存储在一组格式为checkpoints
的文件中,这些文件仅包含以二进制格式训练的权重。
特别是,检查点包含:
- 一个或多个包含我们模型权重的块
- 一个索引文件,指示哪些权重存储在特定块中
因此,检查点文件的大小始终相同的事实取决于所使用的模型始终相同的事实。因此,模型参数的数量始终相同,因此要保存的权重大小始终相同。后缀data-00000-of-00001
表示您正在单台机器上训练模型。
我认为数据集的大小与它无关。