Word2Vec-单词嵌入会改变吗?

问题描述

只想知道是否有2个句子-

  1. 银行 在公众假期仍然关闭
  2. 不要在河边 银行

“银行”一词的嵌入词会有所不同还是相同?如果我们使用word2vec或手套?

解决方法

您无法有效地训练仅嵌入2个文本的密集单词。您将需要这些,以及数十个(或理想的是数百个)在微妙变化的上下文中使用'bank'的示例,以获得'bank'的良好字向量。 (而且,与相同训练模型中其他采样良好的单词的其他单词矢量相比,该单词矢量仅具有意义。)

让我们假设您确实拥有一个庞大的,多样化的训练语料库,其中包含'bank'的许多示例。并且您已经在该语料库上训练了一个模型,即word2vec或GLoVe。

然后,想象一下语料库被改变了,以便有更多的上下文包含“河”的意思。 (也许,添加了许多有关自然,公园,划船和灌溉的新文本。)然后,您从头开始在新语料库上训练模型。

在新模型中,'bank'(及相关词)通常会被吸引来拥有更多类似“河岸”的邻居。

总体而言,这些单词可能处于完全不同的坐标中,因为每次运行都具有足够的随机性,可以大大改变单词的结尾位置。但是它们的相对邻域相对方向在随后的运行中将具有相似的价值,并且示例组合的变化将趋向于将结果推向一个或另一个方向。

GLove和word2vec都是这种情况:它们的最终结果都将受到交替词义相对优势的影响。

(该词具有多种对立的含义,在相关文献中通常称为“多义词”,因此像[多义词词向量]之类的搜索应为您的问题提供更多的工作。)