我对这两个结构感到困惑。从理论上讲,它们的输出都与它们的输入相连。什么魔术使“自我关注机制”比全连接层更强大?
忽略诸如标准化,偏差之类的细节,而完全连接的网络是固定权重:
f(x) = (Wx)
W在培训中是固定的。
W
自我关注层是动态的,随着权重的变化而变化:
attn(x) = (Wx) f(x) = (attn(x) * x)
同样,它忽略了许多细节,但是针对不同应用程序有许多不同的实现方式,因此您应该查看论文。