是否有预训练的Gensim短语模型？

问题描述

是否有经过预先训练的Gensim的{{3}}模型？如果没有，是否可以使用预训练的词嵌入进行逆向工程并创建短语模型？

我正在尝试将Phrases与Gensim的Word2Vec一起使用。首先，我需要将单词映射为短语，以便可以从Google的预训练嵌入中查找它们的向量。

我搜索了Gensim的官方文档，但找不到任何信息。谢谢！

解决方法

我不知道有人共享Phrases模型。任何这样的模型都将对预处理/令牌化步骤以及创建者使用的特定参数非常敏感。

除了高级算法描述之外，我还没有看到Google对输入到GoogleNews 2013单词向量中的数据进行令牌化/规范化/短语组合的确切选择。关于预处理的一些猜测可以通过查看存在的令牌来做出，但是我不知道有任何代码可以将类似的选择应用于其他文本。

您可以尝试模仿其字母组合标记，然后将字母组合串推测性地组合成更长的字母组合，直到最大数量，检查这些组合是否存在，当不存在时，恢复为字母组合（或存在的最大组合）。如果天真地做到这一点，可能会很昂贵，但如果确实很重要，则可以进行优化（尤其是对于某些较常见单词的子集），因为GoogleNews集似乎遵循降序列出单词的惯例。>

（总的来说，尽管这是一组快速便捷的词向量，但我认为GoogleNews有点过分依赖。它将缺少自2013年以来出现的词/词组和新含义，并且它所捕获的任何含义都取决于直到2013年的新闻报道……这可能与其他领域的主要词义不符。如果您的领域不是专门的新闻，并且您有足够的数据，那么您自己的特定于域的令牌化/组合可能会更好。）

gensim machine-learning phrase python word-embedding