“自我注意机制”和“完全连接”层有什么区别？

我对这两个结构感到困惑。从理论上讲，它们的输出都与它们的输入相连。什么魔术使“自我关注机制”比全连接层更强大？

忽略诸如标准化，偏差之类的细节，而完全连接的网络是固定权重：

f(x) = (Wx)

W在培训中是固定的。

自我关注层是动态的，随着权重的变化而变化：

attn(x) = (Wx)
f(x) = (attn(x) * x)

同样，它忽略了许多细节，但是针对不同应用程序有许多不同的实现方式，因此您应该查看论文。