问题描述
我已经创建了LDA模型,为主题准备了名称及其关键词等。现在我想分析文档在主题上的分布。让我们想象一下,我们有 (n-1)-simplex,其中顶点代表每个主题,里面的“点”是文档。是否有可能(pyLDAvis 除外)可视化文档是否更可能比边缘/面更靠近顶点以及这种分布的样子?
我尝试了什么:
- 对于每个文档,我创建了一个向量 [1x14],其权重属于每个主题,然后将它们全部放入一个数组 [nx14](n 个文档,14 个主题)
- 我在这个数组上运行 K-means 并将一些投影与质心的位置一起绘制 - 应该看看质心是否更靠近顶点或在单纯形内部
我在第二点看到的问题是 Kmeans 的质心顺序可能与 LDA 的主题顺序完全不同,对吗?因此,很难通过 Kmeans 的质心来比较或找到具体的主题。
还有其他改进/检查方法的想法吗?
提前致谢!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)