问题描述
我有文本文档的集合。我一直在问,以显示TF-IDF向量空间和NTC形式每个文档,然后,培养基于文件在Python矢量的SVM模型。是什么NTC恰恰意味着在这里?@H_404_1@
我发现,它是相同的,与归一化的一个步骤,该步骤被称为“余弦正常化” TF-IDF权重。但我无法找到这样的东西的信息。我发现“余弦相似”,这是从“余弦正常化”我的想法不同。他们是一样的吗?我如何在 python 中创建这个向量?@H_404_1@
解决方法
我建议使用 sklearn.feature_extraction.text.TfidfVectorizer, scikit learn 是 Python 中的一个围兜,用于训练机器学习模型, 它很容易而且非常有用,