使用 NLTK 构建字符级 Ngram 语言模型

问题描述

我正在尝试使用 NLTK 的 KneserNeyInterpolated 函数字符 级别上构建语言模型。我拥有的是熊猫数据框中单词的频率列表,唯一的列是它的频率(单词本身就是索引)。我已经根据单词的平均长度确定 9-gram 模型是合适的。

from nltk.lm.models import KneserNeyInterpolated

lm = KneserNeyInterpolated(9)
for i in range(df.shape[0]):
    lm.fit([list(ngrams(df.index[i],n = 9))])

lm.generate(num_words = 9)
# ValueError: Can't choose from empty population

尝试调试:

n = 9 # Order of ngram

train_data,padded_sents = padded_everygram_pipeline(4,'whatisgoingonhere')
model = KneserNeyInterpolated(n) 
model.fit(train_data,padded_sents)

model.generate(num_words = 10)
# ['r','</s>','</s>']

这有效(我猜?),但我似乎无法将功能扩展到连续训练新词到语言模型,而且我仍然无法生成逼真的词。我觉得我在这里缺少一些关于该模块应该如何工作的基本知识。使这有点困难的是,所有教程似乎都基于单词级 ngram。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...