为什么 Transformer 的输入长度在实现中是固定的?

问题描述

在论文 (https://arxiv.org/pdf/1706.03762.pdf) 中,Transformer 架构被呈现为不使用循环元素的替代编码器-解码器模型。从理论的角度来看,该模型不需要固定长度的输入,因为所有的注意力和前馈元素都与序列的长度无关。我知道在实践中,由于资源的原因,输入长度需要受上限限制,但我发现的所有实现都将输入长度设置为固定长度,例如 512 个标记,然后填充所有输入序列以获得那个长度。

我的问题是:为什么他们使用填充而不是还允许小于 512 个标记的输入?从理论上的观点来看,Transformer 无论如何都应该能够处理它们。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...