MultiheadAttention 中的 attn_output

我想知道 attn_output_weight 的矩阵是否可以证明输入序列中每个词对之间的关系。在我的项目中，我根据这个输出绘制了热图，它显示如下：

但是，我几乎看不到这张热图中的任何信息。我参考了别人的作品，他们的热图是这样的。至少矩阵的对角线应该具有深色。

那我想知道我绘制热图的方法是否正确（即直接使用attn_output_weight的输出）如果这不是正确的方法，请告诉我如何绘制热图地图？

看来您的值范围相当有限。在目标示例中，值的范围介于 [0,1] 之间，因为每一行代表 softmax 分布。这从注意力的定义中可以看出：

我建议您对每一行/列进行标准化（根据您使用的注意力实现），最后将 [0,1] 范围内的注意力图可视化。您可以在 matplotlib 绘图中分别使用参数 vmin 和 vmax 执行此操作。

如果这不能解决问题，可以添加包含您正在使用的模型和可视化脚本的代码片段。

MultiheadAttention 中的 attn_output_weights