微调PEGASUS时改变权重衰减和预热步骤有什么影响？

我正在使用 this script 微调 PEGASUS 模型。我目前正在使用 SAMSum 数据集，但我已经达到了输出没有变得更好的程度。

示例：

实际总结

亚历克西斯和卡特今晚见面了。卡特想再见面，但亚历克西斯很忙。

最佳输出总结（基于人工评估）

'卡特和亚历克西斯准备好了。'

第二个最佳输出总结（基于人工评估）

['卡特和亚历克西斯准备好了，我想明天看一些。但是']

如上所示，摘要的含义不同，所以我想知道更改重量衰减或热身步骤是否有助于获得更好的结果？如果是这样，增加或减少重量衰减或预热步骤的值会更好吗？

注意：

我使用批量大小 1，因为我使用 Colab pro，最大 GPU 大小为 16280MB，因此使用更大的批量大小不允许使用整个数据集大小，这会导致更糟的结果。此外，目前的热身步骤是 500 步，我在 2000 个 epoch 中总共有 4000 步，重量衰减为 0.01
我已经在训练/验证/测试中使用了不同的组合和大小。默认是 90/5/5 但我尝试了 90/10/0、70/15/15、70/30/0
最好的输出总是在 500 步左右产生，第二好的输出是在 2500 步时以 90/10/0、70/15/15 和 70/30/0 的组合产生

任何进一步提高输出的提示将不胜感激，并提前感谢您！

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）