是否有预训练的Gensim短语模型?

问题描述

是否有经过预先训练的Gensim的{​​{3}}模型?如果没有,是否可以使用预训练的词嵌入进行逆向工程并创建短语模型?

我正在尝试将Phrases与Gensim的Word2Vec一起使用。首先,我需要将单词映射为短语,以便可以从Google的预训练嵌入中查找它们的向量。

搜索了Gensim的官方文档,但找不到任何信息。谢谢!

解决方法

我不知道有人共享Phrases模型。任何这样的模型都将对预处理/令牌化步骤以及创建者使用的特定参数非常敏感。

除了高级算法描述之外,我还没有看到Google对输入到GoogleNews 2013单词向量中的数据进行令牌化/规范化/短语组合的确切选择。关于预处理的一些猜测可以通过查看存在的令牌来做出,但是我不知道有任何代码可以将类似的选择应用于其他文本。

您可以尝试模仿其字母组合标记,然后将字母组合串推测性地组合成更长的字母组合,直到最大数量,检查这些组合是否存在,当不存在时,恢复为字母组合(或存在的最大组合) 。如果天真地做到这一点,可能会很昂贵,但如果确实很重要,则可以进行优化(尤其是对于某些较常见单词的子集),因为GoogleNews集似乎遵循降序列出单词的惯例。>

(总的来说,尽管这是一组快速便捷的词向量,但我认为GoogleNews有点过分依赖。它将缺少自2013年以来出现的词/词组和新含义,并且它所捕获的任何含义都取决于直到2013年的新闻报道……这可能与其他领域的主要词义不符。如果您的领域不是专门的新闻,并且您有足够的数据,那么您自己的特定于域的令牌化/组合可能会更好。)