如果我选择的单词在预训练单词嵌入矩阵中没有任何嵌入矢量怎么办?

问题描述

假设我的文本语料库包含一个罕见词,该词在预先训练的词嵌入中不存在。我该如何解决这个障碍?

解决方法

想到的一些解决方案:

  • 定义一个未知单词向量,它将代表不在列表中的每个单词。
  • 使用n-gram模型(例如最近的邻居)
  • 使用不同的模型来显式查看单词的内容(例如CWE
  • 删除这些功能,并专注于预训练词嵌入中出现的功能。
  • 半监督学习可能会有所帮助