Mallet 中的一致性和诊断文件

问题描述

在 Mallet 中,我们可以获得一个诊断文件包括测量每个主题的一致性 http://mallet.cs.umass.edu/diagnostics.php。在 Gensim 中,我们对每组主题都有一个总分,每个主题都有一个单独的分数 (https://radimrehurek.com/gensim/models/coherencemodel.html)。我有两个问题:

1- Mallet 诊断文件中的一致性方法名称是什么?

2- 如果我们想使用 Mallet 诊断文件中的一致性分数来衡量一个整体分数,我们可以只衡量一致性分数的平均值吗?

解决方法

  1. 我见过它叫做麻省大学的方法,不知道有没有标准的命名法。有关一般处理,请参阅 Röder et al。重要的变量是参考语料库是否与训练语料库相同(是的,因此将其视为上限),统计量是概率还是文档频率(df),等式的形式(条件概率而不是PMI)和平滑因子(很小,所以从不同时出现的词会产生很大的不同)。

  2. 可以,但分配很重要。一些非常烂的话题可能比许多话题中的微小差异更能破坏用户的信心。这些基于共现的一致性度量需要担心的主要问题是冗余。用经常一起出现的高频词来创建大量相同的主题是微不足道的。