主题建模-播种特定单词Python

问题描述

我正在使用gensim包在Python中进行主题建模。我想使用eta参数播出特定单词的先验概率。我不确定单词w的概率是否为:某个主题中w的出现次数/该主题中的令牌总数? 我试图通过检查lda.get_topics和lda.get_term_topics来手动检查此问题。它们都具有numtopics_numwords的形状,就像我打算通过eta传递的字典一样。 但是,当我称第一个术语时,这两个结果会有所不同。

from gensim.models.ldamulticore import LdaMulticore
from gensim.test.utils import datapath


lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus,id2word=id2word,num_topics=3,random_state=100,update_every=1,chunksize=100,passes=5,alpha='asymmetric',eta='auto',per_word_topics=True)

w = lda_model.get_topics()
w[0,0:3]
array([0.00347201,0.00134237,0.00135214],dtype=float32)

w2 = lda_model.get_term_topics('account',minimum_probability=0.00000001)
w2
[(0,0.0031849854),(1,0.006998436),(2,0.0028895985)]

我认为w和w2应该为相同的索引提供相同的值。您能解释一下这些区别吗?

了解后,我将知道如何计算要通过关键字eta传递的值。但是这样的工作示例会很好。

谢谢。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...