如何屏蔽变压器模型中的输出？

我正在应用转换器模型，并将 padding_mask + look_a_head_mask 应用到注意力层。但是掩码不会传播到输出。有没有办法在计算损失时应用padding_mask？

您可以计算任何损失并将其添加到 add_loss() 或您可以直接在自定义循环中进行反向传播