如何使用 sift 将 TF-IDF 与视觉词袋结合使用

如链接中所述，TD IDF 可用于从视觉词袋中删除不太重要的“视觉词”。但是，在网上查看后，似乎 TD-IDF 仅用于文本特征提取。（例如，sklearn.feature_extraction.text.TfidfTransformer）

是否有一种简单的方法可以使用 TF-IDF 进行图像分类而不是文本分类？

我怀疑它对于图像是否足够标准，但自己计算它很容易：

现在只需应用公式：TFIDF = TF * log(IDF)。

或者，您可以将每个图像表示为带有表示视觉词的字符串的伪句子，然后在伪句子集上使用标准 TfidfTransformer。但这可能是更多的工作，但没有什么好处。