从 txt 文件创建语料库

问题描述

我已经创建了主题模型（gensim、LDAvis 等），现在我想在上下文中查看主题模型中的单词，例如，通过查看索引。我有一个 txt 文件，其中包含我想查看的所有文本，用于主题建模。是否可以从那个 txt 文件创建一个语料库，以便我可以在这个语料库中查找某些单词的索引？

我发现了一些看起来很有希望的东西，但我真的不知道如何使用它。

import nltk
nltk.download('popular')

data_dir = "pathtomyfolder"

f = open(data_dir + 'corpus.txt','r',encoding='utf8')
raw = f.read()
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)

我如何从中创建一个我可以使用的文件（搜索单词并查看它们的上下文）？

谢谢！（顺便说一句：完全是 Python 初学者，抱歉！）

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

corpus nlp nltk python topic-modeling