微调PEGASUS时改变权重衰减和预热步骤有什么影响?

问题描述

我正在使用 this script 微调 PEGASUS 模型。 我目前正在使用 SAMSum 数据集,但我已经达到了输出没有变得更好的程度。

示例:

实际总结

亚历克西斯和卡特今晚见面了。卡特想再见面,但亚历克西斯很忙。

最佳输出总结(基于人工评估)

'卡特和亚历克西斯准备好了。'

第二个最佳输出总结(基于人工评估)

['卡特和亚历克西斯准备好了,我想明天看一些。但是']

如上所示,摘要的含义不同,所以我想知道更改重量衰减或热身步骤是否有助于获得更好的结果?如果是这样,增加或减少重量衰减或预热步骤的值会更好吗?

注意:

  1. 我使用批量大小 1,因为我使用 Colab pro,最大 GPU 大小为 16280MB,因此使用更大的批量大小不允许使用整个数据集大小,这会导致更糟的结果。此外,目前的热身步骤是 500 步,我在 2000 个 epoch 中总共有 4000 步,重量衰减为 0.01

  2. 我已经在训练/验证/测试中使用了不同的组合和大小。默认是 90/5/5 但我尝试了 90/10/0、70/15/15、70/30/0

  3. 最好的输出总是在 500 步左右产生,第二好的输出是在 2500 步时以 90/10/0、70/15/15 和 70/30/0 的组合产生

任何进一步提高输出的提示将不胜感激,并提前感谢您!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...