是否可以使用预先保留的模型和现有词汇 + 新人声进行文本分类?

问题描述

我正在关注the video tutorial 8 - NLP 这是the notebook

有一次我用 imdb 文本训练了模型并将其保存为模型。

然后我可以像这样使用相同的词汇再次加载预训练模型:

dls_clas = DataBlock(
    blocks=(TextBlock.from_folder(path,vocab=dls_lm.vocab),CategoryBlock),get_y = parent_label,get_items=partial(get_text_files,folders=['train','test']),splitter=GrandparentSplitter(valid_name='test')
).DataLoaders(path,path=path,bs=128,seq_len=72)

现在,我有一个完全不同的 NLP 任务,即对评论进行分类(10 个类别)。 我想仍然使用这个预先准备好的模型作为基础模型,并将我的新任务中的词汇添加到现有词汇中以重新训练最后几层,因此它可以识别类似:COVID-19

我在想

  1. 从新任务中获取新词汇
  2. 将新词汇附加到现有词汇中
  3. 将组合词传递给数据块

但我在 Fastai's tutorial 中看到了这条评论

我们必须使用与微调时完全相同的词汇 我们的语言模型,或者学习的权重没有任何意义。

所以这意味着我无法添加新词汇……那我该怎么办?

有人可以给我一个想法吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)