Gensim Doc2Vec 模型根据数据集返回不同的余弦相似度

问题描述

我用两个数据集训练了两个版本的 doc2vec 模型。

一个数据集包含 2400 个文档,第二个数据集包含 3000 个文档,包括一个数据集中使用的文档。

举个例子

数据集 1 = doc1,doc2,... doc2400

数据集 2 = doc1,... doc2400,doc2401,... doc3000

我认为两个 doc2vec 模型应该在 doc1 和 doc2 之间返回相同的相似度分数,但是,它们返回了不同的分数。

doc2vec 模型的结果是否会在数据集上发生变化,即使它们包含相同的文档?

解决方法

是的,对训练集的任何添加都会改变相对结果。

此外,如 Gensim 常见问题解答中所述,即使使用完全相同的数据进行重新训练通常也会导致每个训练文档的终点坐标不同,尽管每次运行应该大致相同:

https://github.com/RaRe-Technologies/gensim/wiki/Recipes-&-FAQ#q11-ive-trained-my-word2vec--doc2vec--etc-model-repeatedly-using-the-exact-same-text-corpus-but-the-vectors-are-different-each-time-is-there-a-bug-or-have-i-made-a-mistake-2vec-training-non-determinism

运行之间应该保持大致相同的是每个文档周围的邻域。也就是说,添加一些额外的培训文档不应改变某些候选文档与某些目标文档“非常接近”或“比其他文档更接近”的一般结果 - 除非(1)新文档可能包括一些更接近的文档; (2) 根据上面的常见问题解答,两次运行之间存在少量“抖动”。

如果实际上您看到文档的相对邻域和前 N 个邻域发生了很多的变化,无论是在重复运行中还是在以少量额外数据运行时,都可能存在其他问题培训。

特别是,2400 个文档对于 Doc2Vec 来说是一个非常小的数据集 - 较小的数据集可能需要更小的 vector_size 和/或更多的 epochs 和/或其他调整以获得更可靠的结果,即便如此,也可能无法在更大的(数万到数百万个文档)数据集上展示该算法的优势。