Python NLP:根据我自己的语料库获取单词的同义词

问题描述

我有一个很大的文本语料库(大约 3 GB 的纯文本)。

我想建立一个搜索功能

用户输入关键字时,我想显示其他密切相关的关键字列表。

为此,我不想使用任何通用的同义词词典。相反,我想要一个函数...

  1. 在我的语料库中查看关键字 1 通常与哪些词“搭配”
  2. 找出除了我的关键字 1(可能是关键字 2、关键字 3 等)之外,这些相同的词通常还与哪些其他词相关联

这里有关于方法、库或示例的任何想法吗?我也愿意为更好的方法提供建议。

解决方法

  1. 在您的语料库中训练 word2vec 或 FastText 模型。
  2. 对于每个关键字,在上述模型学习的嵌入空间中找到其最近的邻居。

例如,您可以使用 Gensim 库在 Python 中执行此操作。