问题描述
我在以下链接训练基于 t5
的 tensorflow
转换器:
https://github.com/google-research/text-to-text-transfer-transformer
输入:
b'[atomic]:<subject>PersonX plays a ___ in the war</subject><relation>oReact</relation>'
输出:
<object>none</object>
但是,对于我得到的预测:
⁇ object>none ⁇ /object>
用<
代替??
,我应该怎么做才能解决这个问题?
更新:我发现奇怪的是 <
超出了 t5 分词器的词汇量,即 sentencepiece
,我只是不知道如何添加
解决方法
据我所知,您可以使用 Tokenizer.add_tokens() 添加新令牌。更多详情请见 Huggingface here