使用 LDA 随时间分布主题

我的目标是确定推文的主题并可视化主题分布如何随时间变化。据我所知，最好的方法是使用 stm 包，但我有一些问题。所以，我唯一的选择就是做一个简单的 LDA。

根据每条推文的主题份额，我汇总了每年的主题份额，并将每个主题份额与每年的总数进行比较（与此处 https://towardsdatascience.com/thats-mental-using-lda-topic-modeling-to-investigate-the-discourse-on-mental-health-over-time-11da252259c3 的做法相同）。最终的可视化看起来类似于： topics over time

我的问题是，如果可以使用 LDA 随时间可视化主题，那么在 STM 中这样做有什么意义？有什么重要的区别吗？

事后分析是衡量一段时间内主题流行度的好方法。 LDA 不会明确学习表示年份和主题之间关系的参数，但正如您所发现的，这并不意味着没有关系。

LDA 通常不适用于推文等短文档。您也可以尝试 k 均值。

如果您想以与任何其他回归模型一样的方式对关系进行论证，STM 会很有帮助。这样做的好处是您可能会获得与您的协变量更一致的主题，但这通常不是必需的。

从视觉上看，我真的不喜欢主题随时间变化的流图。例如，由于 2000 年艺术学科的激增，您无法判断该年是否有任何其他主题发生变化，因为它们都被从上面“推到了一边”。为每个主题提供自己的面积图，可以更轻松地查看各个趋势。