问题描述
我正在使用Longformer对文档文本二进制分类任务进行Huggingface Trainer class的微调,并且正在使用Tensorboard监视某些检查点的措施。
即使F1得分和准确性很高,我也对训练损失的波动感到困惑。
我在网上阅读的原因可能是:
- 学习率太高,但是我尝试使用3个值(1e-4、1e-5和1e-6),并且所有这些都产生了相同的效果
- 小批量。我正在使用具有8xK80 GPU的 Sagemaker笔记本p2.8xlarge 。我可以用来避免 CUDA内存不足错误的每个GPU的批处理大小为1。因此,总批处理大小为 8 。我的直觉是,对于包含57K个示例(每个纪元7K个步骤)的数据集,bs 8太小了。不幸的是,这是我可以使用的最高价值。
在这里,我报告了F1的趋势,准确性,损失和平滑损失。灰线是1e-6的学习率,粉红色的是1e-5。
我重新确定了培训的所有信息:
- 批处理大小:1 x 8GPU = 8
- 学习率: 1e-4 , 1e-5 , 1e-6 (均已测试)没有改善的损失
- 型号: Longformer
- 数据集:
- 培训集: 57,000个示例
- 开发集: 12K示例
- 测试集: 12,000个示例
可能是什么原因?尽管F1和准确性结果相当好,这可以算是一个问题吗?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)