如何从word2vec的语料库中找到相似的句子?

问题描述

我已经使用 TensorFlow 教程在我的语料库中实现了 word2vec:https://www.tensorflow.org/tutorials/text/word2vec#next_steps 现在我想给一个句子作为输入,并想在语料库中找到一个相似的句子。

任何有关我如何执行此操作的线索?

解决方法

一个简单的 word2vec 模型无法完成这样的任务,因为它只将单词语义相互关联,而不是整个句子的语义。本质上,这样的模型没有生成功能,它只是一个查找表。

Word2vec 模型将词串映射到嵌入空间中的向量。要为给定的样本词找到相似的词,可以简单地遍历词汇表中的所有向量,并找到与样本词向量最接近的词(根据 2-范数)。如需更多信息,您可以前往 herehere

然而,这对句子不起作用,因为它需要一个完整的句子词汇来选择相似的句子 - 这是不可行的。

编辑:这似乎是 this 问题的重复。