在 Google Colab 中成功运行预训练的 LDA-Mallet 模型并推断未见文档的主题

问题描述

大家好,我在将经过本地训练的 LDA 槌模型(使用 Gensim v 3.8.3 [因为 v 4.0.0 丢弃了槌包装器])转移到 Colab 的在线实例时遇到了一些麻烦

ValueError: EOF: reading array data,expected xx byes got yy

使用 joblib 加载保存的模型时。

当谈到保存我的模型时,Gensim Mallet 包装器允许您传递字符串参数前言,该参数指定输出敏感槌相关文件的路径:

modelcorpus.txt
modeldoctopics.txt
modelinferencer.mallet
modelstate.mallet.gz (when unzipped produces modelstate.mallet)
modeltopickeys.txt

然后我使用 joblib 导出:

The corpus
id2word dictionary
mallet model itself

尝试在不同的控制台本地重新运行时,我能够加载模型并推断新文档上的主题,但在将所有这些文件上传到 Colab 实例后,我收到上述错误

是否有人熟悉 Mallet 的复杂性并在 Colab 上使用预训练模型?

谢谢

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)