为什么 Transformer 的输入长度在实现中是固定的？

问题描述

在论文 (https://arxiv.org/pdf/1706.03762.pdf) 中，Transformer 架构被呈现为不使用循环元素的替代编码器-解码器模型。从理论的角度来看，该模型不需要固定长度的输入，因为所有的注意力和前馈元素都与序列的长度无关。我知道在实践中，由于资源的原因，输入长度需要受上限限制，但我发现的所有实现都将输入长度设置为固定长度，例如 512 个标记，然后填充所有输入序列以获得那个长度。

我的问题是：为什么他们使用填充而不是还允许小于 512 个标记的输入？从理论上的观点来看，Transformer 无论如何都应该能够处理它们。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

encoder-decoder machine-learning machine-translation transformer