了解巴赫达瑙的注意力线性代数

问题描述

下图中,巴赫达瑙的加法注意力被视为等式4的第二部分。


enter image description here


我试图找出矩阵w1w2hthsv的形状,以便找出this paper

中使用了机制
  1. hths的最终尺寸可以不同吗?说(批量大小,总单位)和(批量大小,时间窗口)。上面提到的论文中的公式8似乎正在这样做。

  2. 上式中的方程式8具有以下表示法:

    enter image description here

这将扩展到什么位置?

(W1 . ht-1) + (W1 . Ct-1)

W1 . concatenation(ht-1,ct-1)

我已经看到两者都被使用了。 对于上述矩阵形状的任何快速解释,将不胜感激。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)