Gensim Phrase 模型参数阈值

问题描述

有人可以向我解释一下参数阈值在 Gensim 的 Phrase 模型中的作用吗?以及在训练包含大量数据的数据集时如何选择它? 我在很多教程中搜索,但仍然没有清楚地了解它 谢谢

解决方法

作为寻找有趣词对的一种相当粗糙的统计方法,最佳参数的选择只是一个更适合您的目的的问题。

尝试比默认值更小或更大的值,并根据您真正的最终目标的一些可重复的质量评估来测试结果短语。选择得分最高的值。

请注意,由于此方法完全忽略了语法等内容,因此创建的短语无法可靠地匹配人类对逻辑词组的理解。在任何一组调整参数下,它都会创建一些不需要的短语,并错过您认为有用的其他短语。

因此,它的标记化文本输出通常不适合向最终用户显示,即使它对于其他分析步骤(如分类器或文档相似性计算)可能是有用的输入。