问题描述
我正在使用 this script 微调 PEGASUS 模型。 我目前正在使用 SAMSum 数据集,但我已经达到了输出没有变得更好的程度。
示例:
实际总结
亚历克西斯和卡特今晚见面了。卡特想再见面,但亚历克西斯很忙。
最佳输出总结(基于人工评估)
'卡特和亚历克西斯准备好了。'
第二个最佳输出总结(基于人工评估)
['卡特和亚历克西斯准备好了,我想明天看一些。但是']
如上所示,摘要的含义不同,所以我想知道更改重量衰减或热身步骤是否有助于获得更好的结果?如果是这样,增加或减少重量衰减或预热步骤的值会更好吗?
注意:
-
我使用批量大小 1,因为我使用 Colab pro,最大 GPU 大小为 16280MB,因此使用更大的批量大小不允许使用整个数据集大小,这会导致更糟的结果。此外,目前的热身步骤是 500 步,我在 2000 个 epoch 中总共有 4000 步,重量衰减为 0.01
-
我已经在训练/验证/测试中使用了不同的组合和大小。默认是 90/5/5 但我尝试了 90/10/0、70/15/15、70/30/0
-
最好的输出总是在 500 步左右产生,第二好的输出是在 2500 步时以 90/10/0、70/15/15 和 70/30/0 的组合产生
任何进一步提高输出的提示将不胜感激,并提前感谢您!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)