是什么在TF-IDF矢量空间究竟NTC形式?

问题描述

我有文本文档的集合。我一直在问,以显示TF-IDF向量空间和NTC形式每个文档,然后,培养基于文件在Python矢量的SVM模型。是什么NTC恰恰意味着在这里?@H_404_1@

我发现,它是相同的,与归一化的一个步骤,该步骤被称为“余弦正常化” T​​F-IDF权重。但我无法找到这样的东西的信息。我发现“余弦相似”,这是从“余弦正常化”我的想法不同。他们是一样的吗?我如何在 python 中创建这个向量?@H_404_1@

解决方法

我建议使用 sklearn.feature_extraction.text.TfidfVectorizer, scikit learn 是 Python 中的一个围兜,用于训练机器学习模型, 它很容易而且非常有用,