是否可以使用预先保留的模型和现有词汇 + 新人声进行文本分类？

问题描述

我正在关注the video tutorial 8 - NLP 这是the notebook

有一次我用 imdb 文本训练了模型并将其保存为模型。

然后我可以像这样使用相同的词汇再次加载预训练模型：

dls_clas = DataBlock(
    blocks=(TextBlock.from_folder(path,vocab=dls_lm.vocab),CategoryBlock),get_y = parent_label,get_items=partial(get_text_files,folders=['train','test']),splitter=GrandparentSplitter(valid_name='test')
).DataLoaders(path,path=path,bs=128,seq_len=72)

现在，我有一个完全不同的 NLP 任务，即对评论进行分类（10 个类别）。我想仍然使用这个预先准备好的模型作为基础模型，并将我的新任务中的词汇添加到现有词汇中以重新训练最后几层，因此它可以识别类似：COVID-19

我在想

从新任务中获取新词汇
将新词汇附加到现有词汇中
将组合词传递给数据块

但我在 Fastai's tutorial 中看到了这条评论：

我们必须使用与微调时完全相同的词汇我们的语言模型，或者学习的权重没有任何意义。

所以这意味着我无法添加新词汇……那我该怎么办？

有人可以给我一个想法吗？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

deep-learning fast-ai machine-learning nlp