问题描述
我最近在研究注意力。我有点怀疑他们计算的注意力是 Pytorch NLP 注意力教程:https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html。
在教程中,他们使用解码器的输入和解码器的隐藏状态计算得分或权重。但是我发现 Luong 和 Badahnau 都没有这样做的原因。相反,两者都使用解码器隐藏状态和编码器输出计算权重。 为什么 Pytorch 教程会这样做?
解决方法
pytorch 教程对 Luong 和 Bahdanau 的关注似乎不同。