注意 NLP 变换器网络中的“能力”

问题描述

我目前正在撰写关于 NLP 转换器的硕士论文。我读了很多书,有一段时间一直想知道一个事实。在变形金刚中,我们有自注意力和注意力头。假设我有 512 维和 8 个 head 的词嵌入,那么每个 head 都会处理每个输入词的 64 维来计算 self-attention。

这是教科书上的一张图片,可以说明我的意思:

enter image description here

这是我现在的问题。我们可以说每个注意力头都有一种“能力”来理解单词的部分含义吗?假设一个词嵌入的前 64 个维度总是处理词的情感;那么第一个头会是情绪头吗?这对网络中的可解释性和学习意味着什么?

这是我在这里的第一个问题;我希望表达得足够清楚。

感谢您的回答!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)