问题描述
在论文 (https://arxiv.org/pdf/1706.03762.pdf) 中,Transformer 架构被呈现为不使用循环元素的替代编码器-解码器模型。从理论的角度来看,该模型不需要固定长度的输入,因为所有的注意力和前馈元素都与序列的长度无关。我知道在实践中,由于资源的原因,输入长度需要受上限限制,但我发现的所有实现都将输入长度设置为固定长度,例如 512 个标记,然后填充所有输入序列以获得那个长度。
我的问题是:为什么他们使用填充而不是还允许小于 512 个标记的输入?从理论上的观点来看,Transformer 无论如何都应该能够处理它们。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)