问题描述
只想知道是否有2个句子-
- 银行 在公众假期仍然关闭
- 不要在河边 银行
“银行”一词的嵌入词会有所不同还是相同?如果我们使用word2vec或手套?
解决方法
您无法有效地训练仅嵌入2个文本的密集单词。您将需要这些,以及数十个(或理想的是数百个)在微妙变化的上下文中使用'bank'
的示例,以获得'bank'
的良好字向量。 (而且,与相同训练模型中其他采样良好的单词的其他单词矢量相比,该单词矢量仅具有意义。)
让我们假设您确实拥有一个庞大的,多样化的训练语料库,其中包含'bank'
的许多示例。并且您已经在该语料库上训练了一个模型,即word2vec或GLoVe。
然后,想象一下语料库被改变了,以便有更多的上下文包含“河”的意思。 (也许,添加了许多有关自然,公园,划船和灌溉的新文本。)然后,您从头开始在新语料库上训练模型。
在新模型中,'bank'
(及相关词)通常会被吸引来拥有更多类似“河岸”的邻居。
总体而言,这些单词可能处于完全不同的坐标中,因为每次运行都具有足够的随机性,可以大大改变单词的结尾位置。但是它们的相对邻域和相对方向在随后的运行中将具有相似的价值,并且示例组合的变化将趋向于将结果推向一个或另一个方向。
GLove和word2vec都是这种情况:它们的最终结果都将受到交替词义相对优势的影响。
(该词具有多种对立的含义,在相关文献中通常称为“多义词”,因此像[多义词词向量]之类的搜索应为您的问题提供更多的工作。)