用于训练 Gensim Word2vec 模型的每个句子的最小单词数

假设我有一个短句语料库，其词数范围从 1 到 500 左右，平均词数约为 9。如果我使用 window=5（这是默认值）训练 Gensim Word2vec 模型,我应该使用所有的句子吗？或者我应该删除字数低的句子？如果是这样，是否有最小字数的经验法则？

对于 word2vec 算法来说，只有 1 个单词的文本本质上是“空的”：没有相邻的单词，这对于所有训练模式都是必需的。你可以丢掉它们，但把它们留在里面也没什么坏处。他们基本上只是无操作。

任何包含 2 个或更多单词的文本都可以为训练做出贡献。