Gensim 是否处理 W2V 模型中的 pad 索引和 UNK 索引?

问题描述

我正在使用 Gensim 来构建 W2V 模型,但我没有找到在 Gensim 中为未知词或填充部分添加向量的方法,我必须手动完成。 我还在创建的嵌入中检查了 0 的索引,它也用于特定的单词。这件事可能会导致填充词出现问题,因为它们具有相同的索引。

在这里遗漏了什么吗? Gensim 能解决这个问题吗?

P.S:为了处理这个问题,我总是在训练模型后在模型权重中附加两个向量。

解决方法

Gensim Word2Vec 模型只学习和报告它在训练期间学到的单词的向量。

如果您希望它为任何合成的“未知”或“填充”符号学习一些向量,则需要将它们包含在训练数据中。 (不过,它们可能不是非常有趣/有用的向量值,并且拥有这样的合成标记向量可能不会胜过简单地忽略未知标记或完全避免人工填充。)