Gensim Word2Vec是否在上下文中包括相邻句子?

问题描述

我正在计算材料标签的相似度。每个标签中可能包含1-10个单词。我正在使用gensim word2vec查找余弦相似度。

我的方法只是将每个标签视为“句子”并标记每个单词。
示例:
标签 = ['木制书桌樱桃','长袖衬衫棉',..]

句子 = [['wooden','desk','cherry'],['long','sleeve','shirt','cotton'] ..] >

我的问题是word2vec是否将相邻句子纳入其上下文。例如,如果我使用window = 2,则在查看“长”周围的单词时,将包含“樱桃”或仅包含“袖子”。

如果考虑了相邻句子,则有一种方法只能考虑目标单词句子中的单词。

感谢您的帮助。我已经阅读了Word2Vec文档,找不到有关此的任何信息。

解决方法

Gensim的Word2Vec可以处理您提供给它的任何文本块。因此,当您在训练语料库中将['wooden','desk','cherry']['long','sleeve','shirt','cotton']作为单独的项目提供时,没有训练窗口会将它们融合在一起。

(另外:在足够大的训练集中,即使发生了这种“溢出”,也不太可能产生很大的变化。这会有点随机干扰,因为源数据并不能真正暗示这些单词会一起出现,但是它抛出的曲线球应该在真实同时出现时被“真实信号”淹没。)