窗口大小对word2vec有什么影响,我们如何根据不同的任务选择窗口大小?

问题描述

例如,如果我选择两个窗口大小,5 和 50,并训练 word2vec 模型,那么 50 是否需要更多的时间来训练? 50个的embeddings会更侧重于文本的语义,而5个的embeddings会更侧重于单个词吗? 顺便说一句,以上两个问题只是我对我所寻求的想法/例子。我真正的问题只是标题“窗口大小如何影响word2vec,我们如何根据不同的任务选择窗口大小?”

解决方法

较大的 window 需要更长的训练时间。

在“skip-gram”模式下,更大的窗口将对运行时产生更强的影响,其中更大的窗口意味着更多的单个中心词预测和错误反向传播。在“CBOW”模式下,它会对运行时产生更温和的影响,这意味着对每个预测/反向传播的输入向量和最终效果的扇出进行更多平均。

关于它如何影响结果词向量的特征,在之前的答案中有一些讨论和相关的研究论文:Word2Vec: Effect of window size used

通常,您会像优化任何其他可调参数一样优化 window 值,方法是设计一些可重复的方法来对实际任务(或密切/相关模拟)中的最终词向量进行评分,然后尝试一系列值,看看哪个分数在您的评估中最好。