使用 NLTK 构建字符级 Ngram 语言模型

问题描述

我正在尝试使用 NLTK 的 KneserNeyInterpolated 函数在字符级别上构建语言模型。我拥有的是熊猫数据框中单词的频率列表，唯一的列是它的频率（单词本身就是索引）。我已经根据单词的平均长度确定 9-gram 模型是合适的。

from nltk.lm.models import KneserNeyInterpolated

lm = KneserNeyInterpolated(9)
for i in range(df.shape[0]):
    lm.fit([list(ngrams(df.index[i],n = 9))])

lm.generate(num_words = 9)
# ValueError: Can't choose from empty population

尝试调试：

n = 9 # Order of ngram

train_data,padded_sents = padded_everygram_pipeline(4,'whatisgoingonhere')
model = KneserNeyInterpolated(n) 
model.fit(train_data,padded_sents)

model.generate(num_words = 10)
# ['r','</s>','</s>']

这有效（我猜？），但我似乎无法将功能扩展到连续训练新词到语言模型，而且我仍然无法生成逼真的词。我觉得我在这里缺少一些关于该模块应该如何工作的基本知识。使这有点困难的是，所有教程似乎都基于单词级 ngram。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

n-gram nlp nltk nltk-book python

使用 NLTK 构建字符级 Ngram 语言模型

问题描述

解决方法

相关问答