问题描述
我正在应用转换器模型,并将 padding_mask + look_a_head_mask 应用到注意力层。但是掩码不会传播到输出。有没有办法在计算损失时应用padding_mask?
解决方法
您可以计算任何损失并将其添加到 add_loss()
或您可以直接在自定义循环中进行反向传播
我正在应用转换器模型,并将 padding_mask + look_a_head_mask 应用到注意力层。但是掩码不会传播到输出。有没有办法在计算损失时应用padding_mask?
您可以计算任何损失并将其添加到 add_loss()
或您可以直接在自定义循环中进行反向传播