问题描述
我正在尝试为一个项目操作一个有限状态传感器。但是,在构建 FST 时,我需要每个输出符号都是来自输入符号的任意长的字符序列,它们只是来自相关文本语料库的单个唯一字符。此外,我需要统一表示这些任意长的序列,以便每个组合的 表示具有相同的长度。当然,对于任意长度,最长可能的组合具有无限长度,因此让我们假设没有组合可以长于关联语料库中的最长文档。
换句话说,给定 input_vocabulary
的 ['a','b','c']
,output_vocabulary
的 ['a','ab','acb','abcb']
每个都需要表示为某个长度为 4 的向量,每个向量中的每个项目是来自 input_vocabulary
的项目。我唯一的想法是用一个填充向量来做,例如,在这个例子中,[ [0,3,3],[0,1,2,1] ]
,其中 3
是一个填充标记,但我对此很陌生,所以任何帮助都会很大赞赏。
澄清一下,我想知道是否有办法在没有 pad 令牌的情况下做到这一点。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)