从 Huggingface 加载 Roberta 和 XLM_Roberta 模型后收到错误

问题描述

我很喜欢尝试使用来自优秀的“Huggingface”库的不同转换器。但是,当我尝试使用任何类型的“roberta”/“xlm”转换器时,我收到以下错误消息。我的 Python 代码似乎与 bert-base 和 bert-large 模型一起工作得很好,所以我想了解我可能需要如何调整它以与这些变体一起工作。

异常:WordPiece 错误:词汇表中缺少 [UNK] 标记

我的代码在预训练的 BERT 模型之上添加一个微调层。我以前使用过的所有 bert 模型在标记和处理我正在分析的英语文本数据方面都没有问题。我的 Python 知识在不断增长,但我会将其描述为扎实的基础知识,但在此级别之上却是零散的。请帮助我更好地理解这里的问题,以便我进行必要的调整,谢谢 - 马克

这是完整的错误消息,如果有帮助的话。

---------------------------------------------------------------------------
Exception                                 Traceback (most recent call last)
<ipython-input-61-d42d72a742f6> in <module>()
      5     pad_to_max_length=True,6     truncation=True,----> 7     return_token_type_ids=False
      8 )
      9 


2 frames

/usr/local/lib/python3.6/dist-packages/tokenizers/implementations/base_tokenizer.py in encode_batch(self,inputs,is_pretokenized,add_special_tokens)
    247             raise ValueError("encode_batch: `inputs` can't be `None`")
    248 
--> 249         return self._tokenizer.encode_batch(inputs,add_special_tokens)
    250 
    251     def decode(self,ids: List[int],skip_special_tokens: Optional[bool] = True) -> str:

Exception: WordPiece error: Missing [UNK] token from the vocabulary

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)