使用 LDA 随时间分布主题

问题描述

我的目标是确定推文的主题并可视化主题分布如何随时间变化。据我所知,最好的方法是使用 stm 包,但我有一些问题。所以,我唯一的选择就是做一个简单的 LDA。

根据每条推文的主题份额,我汇总了每年的主题份额,并将每个主题份额与每年的总数进行比较(与此处 https://towardsdatascience.com/thats-mental-using-lda-topic-modeling-to-investigate-the-discourse-on-mental-health-over-time-11da252259c3 的做法相同)。最终的可视化看起来类似于: topics over time

我的问题是,如果可以使用 LDA 随时间可视化主题,那么在 STM 中这样做有什么意义?有什么重要的区别吗?

解决方法

事后分析是衡量一段时间内主题流行度的好方法。 LDA 不会明确学习表示年份和主题之间关系的参数,但正如您所发现的,这并不意味着没有关系。

LDA 通常不适用于推文等短文档。您也可以尝试 k 均值。

如果您想以与任何其他回归模型一样的方式对关系进行论证,STM 会很有帮助。这样做的好处是您可能会获得与您的协变量更一致的主题,但这通常不是必需的。

从视觉上看,我真的不喜欢主题随时间变化的流图。例如,由于 2000 年艺术学科的激增,您无法判断该年是否有任何其他主题发生变化,因为它们都被从上面“推到了一边”。为每个主题提供自己的面积图,可以更轻松地查看各个趋势。