Fasttext量化无监督模型

问题描述

我正在尝试使用此命令以Fasttext量化无监督模型。

model.quantize(input=train_data,qnorm=True,retrain=True,cutoff=200000)

抛出一个错误，它仅受监督的模型支持。

有没有其他方法可以量化无监督模型？

解决方法

paper which introduced the FastText team's quantization strategy仅评估分类模型，并使用了一些修剪步骤，这些步骤仅对带有标签的培训文档有意义。（不过，我看不到-quantize的论点包括原始的培训文档，因此不确定本文中所述的修剪技术是否已完全实现。）

虽然某些压缩步骤可以应用于无监督的密集向量，但我还没有看到提供这种功能的库，但是实现/添加可能是一件很整洁的事情。

但是，FastText工作完成的分类可能是这些技术的“最佳结合点”，并将其应用于其他词向量后，它们会对下游使用产生更大的负面影响。因此，应在扩展该技术的同时进行一些实验，以确认其价值。

compression fasttext python