Gensim 和 Mallet 的整体连贯性

问题描述

我想知道如何测量 gensim (https://radimrehurek.com/gensim/models/coherencemodel.html) 中每组主题的 u_mass'、'c_v'、'c_uci'、'c_npmi' 的整体一致性?

是否基于一致性值的平均值:(一致性主题 1 + 一致性主题 2 + .... + 一致性主题 n)/n ?

例如,如果我们有 5 个主题,则整体连贯性将是(连贯性主题 1 + 连贯性主题 2 + 连贯性主题 3 + 连贯性主题 4 + 连贯性主题 5)除以 5

解决方法

通常,模型的整体连贯性是主题的平均连贯性(意味着您的五个主题的示例是正确的)。 C_vC_uciC_npmiC_u_mass 都是略有不同的一致性度量,均基于逐点互信息。

有一份很好的调查论文,详细介绍了可以在 here 中找到的所有上述一致性指标。