窗口大小对word2vec有什么影响，我们如何根据不同的任务选择窗口大小？

问题描述

例如，如果我选择两个窗口大小，5 和 50，并训练 word2vec 模型，那么 50 是否需要更多的时间来训练？ 50个的embeddings会更侧重于文本的语义，而5个的embeddings会更侧重于单个词吗？顺便说一句，以上两个问题只是我对我所寻求的想法/例子。我真正的问题只是标题“窗口大小如何影响word2vec，我们如何根据不同的任务选择窗口大小？”

解决方法

较大的 window 需要更长的训练时间。

在“skip-gram”模式下，更大的窗口将对运行时产生更强的影响，其中更大的窗口意味着更多的单个中心词预测和错误反向传播。在“CBOW”模式下，它会对运行时产生更温和的影响，这意味着对每个预测/反向传播的输入向量和最终效果的扇出进行更多平均。

关于它如何影响结果词向量的特征，在之前的答案中有一些讨论和相关的研究论文：Word2Vec: Effect of window size used

通常，您会像优化任何其他可调参数一样优化 window 值，方法是设计一些可重复的方法来对实际任务（或密切/相关模拟）中的最终词向量进行评分，然后尝试一系列值，看看哪个分数在您的评估中最好。

nlp word2vec