小样本学习期间 GPT2/GPT3 模型的变化

问题描述

在迁移学习期间,我们采用一个预训练的网络和一些观察对(输入和标签),并使用这些数据通过反向传播来微调权重。但是,在单次/少次学习期间,根据这篇论文-“语言模型是少次学习者”(https://arxiv.org/pdf/2005.14165.pdf),“不执行梯度更新”。那么在one-shot/few shot学习过程中,GPT2和GPT3等模型会发生什么变化?

解决方法

那么GPT2、GPT3等模型在one-shot/few shot学习过程中会发生什么变化?

模型完全没有变化。该模型不会保留地学习任何东西。他们所做的是将“训练示例”作为模型的上下文,模型在此上下文的末尾生成输出。图 2.1 (Brown、Tom B. 等人“语言模型是小样本学习者。”(2020 年)。) 显示了微调、零样本学习和少量学习。

如您所见,训练示例是输入的一部分,每次进行预测时都必须给出。因此模型没有发生任何变化。 Brown,Tom B.,et al. "Language models are few-shot learners."(2020),Figure 2.1Brown、Tom B. 等人。 “语言模型是少数学习者。”(2020)

,

你可能认为有一些变化是因为模型在几次训练的情况下返回了更好的结果。但是,它是相同的模型,但具有不同的上下文作为输入。 GPT-2 和 GPT-3 都是自回归模型,这意味着输出也取决于上下文。 更多的例子意味着更清晰的上下文,因此,获得预期结果的机会增加。