为什么多头自注意力机制可以比单头学习更多的特征?

问题描述

最近我正在研究 Transformer 机制,其中包含一个称为多头自注意力机制的机制。在浏览了很多关于它是如何工作的详细博客后,我只得到一个印象,这个机制是为模型设计的,用于孤立地提取不同类型的特征。

然而,虽然它们的训练过程是孤立的,但它们的网络结构、初始化方式和计算方式是完全相同的。因此,似乎应该将这些 Heads 训练成相同的结果,更不用说提取不同类型的特征了。

然而,事情不可能像我想的那样,所以我在徘徊,如果有什么我想念的,或者我有什么误解?谢谢大家!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)