用于训练 Gensim Word2vec 模型的每个句子的最小单词数

问题描述

假设我有一个短句语料库,其词数范围从 1 到 500 左右,平均词数约为 9。如果我使用 window=5(这是认值)训练 Gensim Word2vec 模型,我应该使用所有的句子吗?或者我应该删除字数低的句子?如果是这样,是否有最小字数的经验法则?

解决方法

对于 word2vec 算法来说,只有 1 个单词的文本本质上是“空的”:没有相邻的单词,这对于所有训练模式都是必需的。你可以丢掉它们,但把它们留在里面也没什么坏处。他们基本上只是无操作。

任何包含 2 个或更多单词的文本都可以为训练做出贡献。