从textrecipes的step_lda中提取LDA每个主题每个单词的概率

问题描述

我正在浏览Tidy Text Modeling book的“主题建模”一章，但是尝试将textrecipes软件包与step_lda一起使用LDA。

我可能会误会，但是似乎准备和榨汁默认包含step_lda的配方会为每个文档生成按文档的按主题的概率。我该如何提取beta概率来分析主题本身？

这是我在做什么的一个例子：

devtools::install_github("EmilHvitfeldt/scotus")
library(scotus)

scotus_lda_rec <- recipe(~ .,data = scotus_sample) %>%
    step_lda(text)

set.seed(123)
scotus_lda_prep <- prep(scotus_lda_rec)
scotus_lda <- juice(scotus_lda_prep)

然后要获得每个文档的最高主题，我将执行以下操作：

scotus_lda2 <- scotus_lda %>%
    pivot_longer(lda_text_w1:lda_text_w10) %>%
    group_by(id) %>%
    top_n(1,value) %>%
    select(id,top_topic = name) %>%
    left_join(scotus_lda) %>%
    left_join(scotus_sample %>% select(id,text))

但是，获得每个主题的热门词汇也很棒，我们将不胜感激！

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

r r r-recipes tidymodels