从 txt 文件创建语料库

问题描述

我已经创建了主题模型(gensim、LDAvis 等),现在我想在上下文中查看主题模型中的单词,例如,通过查看索引。我有一个 txt 文件,其中包含我想查看的所有文本,用于主题建模。是否可以从那个 txt 文件创建一个语料库,以便我可以在这个语料库中查找某些单词的索引?

我发现了一些看起来很有希望的东西,但我真的不知道如何使用它。

import nltk
nltk.download('popular')

data_dir = "pathtomyfolder"

f = open(data_dir + 'corpus.txt','r',encoding='utf8')
raw = f.read()
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)

我如何从中创建一个我可以使用的文件搜索单词并查看它们的上下文)?

谢谢! (顺便说一句:完全是 Python 初学者,抱歉!)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)