问题描述
我想知道如何测量 gensim (https://radimrehurek.com/gensim/models/coherencemodel.html) 中每组主题的 u_mass'、'c_v'、'c_uci'、'c_npmi' 的整体一致性?
是否基于一致性值的平均值:(一致性主题 1 + 一致性主题 2 + .... + 一致性主题 n)/n ?
例如,如果我们有 5 个主题,则整体连贯性将是(连贯性主题 1 + 连贯性主题 2 + 连贯性主题 3 + 连贯性主题 4 + 连贯性主题 5)除以 5
解决方法
通常,模型的整体连贯性是主题的平均连贯性(意味着您的五个主题的示例是正确的)。 C_v
、C_uci
、C_npmi
和 C_u_mass
都是略有不同的一致性度量,均基于逐点互信息。
有一份很好的调查论文,详细介绍了可以在 here 中找到的所有上述一致性指标。