在 LDA 主题分布向量上使用 K 均值

问题描述

我已经创建了LDA模型,为主题准备了名称及其关键词等。现在我想分析文档在主题上的分布。让我们想象一下,我们有 (n-1)-simplex,其中顶点代表每个主题,里面的“点”是文档。是否有可能(pyLDAvis 除外)可视化文档是否更可能比边缘/面更靠近顶点以及这种分布的样子?

我尝试了什么:

  • 对于每个文档,我创建了一个向量 [1x14],其权重属于每个主题,然后将它们全部放入一个数组 [nx14](n 个文档,14 个主题
  • 在这个数组上运行 K-means 并将一些投影与质心的位置一起绘制 - 应该看看质心是否更靠近顶点或在单纯形内部

我在第二点看到的问题是 Kmeans 的质心顺序可能与 LDA 的主题顺序完全不同,对吗?因此,很难通过 Kmeans 的质心来比较或找到具体的主题

还有其他改进/检查方法的想法吗?

提前致谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)