如何改造 fasttext 模型?

问题描述

我阅读了各种研究论文,其中提到可以改进快速文本模型以提高其准确性 (https://github.com/mfaruqui/retrofitting)。但是我在如何实施它时遇到了麻烦。

上面的github链接,将采用一个矢量文件并对其进行改造,输出一个矢量文件。我可以使用 gensim 库加载它。然而,由于它是一个矢量文件,它不再是一个模型,它不会预测 OOV(词汇外)词。这使它毫无意义。有没有办法以某种方式重新训练模型,使其具有更好的准确性?

解决方法

据我了解,通过阅读 paper 和浏览 repository建议的方法只允许提高向量的质量 (.vec)输入。

正如您所读到的 here,fastText 表示词汇外单词的能力是 .bin 模型(包含所有 n-gram 的向量)所固有的。

正如您可能已经理解的那样,使用建议的方法没有开箱即用的方法来改造 fastText 模型。