“自我注意机制”和“完全连接”层有什么区别?

问题描述

我对这两个结构感到困惑。从理论上讲,它们的输出都与它们的输入相连。什么魔术使“自我关注机制”比全连接层更强大?

解决方法

忽略诸如标准化,偏差之类的细节,而完全连接的网络是固定权重:

f(x) = (Wx)

W在培训中是固定的。

自我关注层是动态的,随着权重的变化而变化:

attn(x) = (Wx)
f(x) = (attn(x) * x)

同样,它忽略了许多细节,但是针对不同应用程序有许多不同的实现方式,因此您应该查看论文。