问题描述
我正在浏览Tidy Text Modeling book的“主题建模”一章,但是尝试将textrecipes
软件包与step_lda
一起使用LDA。
我可能会误会,但是似乎准备和榨汁默认包含step_lda
的配方会为每个文档生成按文档的按主题的概率。我该如何提取beta概率来分析主题本身?
这是我在做什么的一个例子:
devtools::install_github("EmilHvitfeldt/scotus")
library(scotus)
scotus_lda_rec <- recipe(~ .,data = scotus_sample) %>%
step_lda(text)
set.seed(123)
scotus_lda_prep <- prep(scotus_lda_rec)
scotus_lda <- juice(scotus_lda_prep)
然后要获得每个文档的最高主题,我将执行以下操作:
scotus_lda2 <- scotus_lda %>%
pivot_longer(lda_text_w1:lda_text_w10) %>%
group_by(id) %>%
top_n(1,value) %>%
select(id,top_topic = name) %>%
left_join(scotus_lda) %>%
left_join(scotus_sample %>% select(id,text))
但是,获得每个主题的热门词汇也很棒,我们将不胜感激!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)