为什么使用 GPT2Tokenizer 将阿拉伯字符转换为符号?

问题描述

我正在尝试将 GPT2 用于阿拉伯语文本分类任务,如下所示:

    tokenizer = GPT2Tokenizer.from_pretrained(model_path)
    model = GPT2ForSequenceClassification.from_pretrained(model_path,num_labels=len(lab2ind)) 

但是,当我使用分词器时,它会将阿拉伯字符转换为这样的符号 'ĠÙĥتÙĬر'

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)