预测新的 vectorized_tf-idf 数据时维度不匹配

问题描述

我已经训练了四个模型（逻辑回归、朴素贝叶斯、随机森林和 SVM）来对约 13k 文本数据元素进行二元预测。对于上下文，每个元素都是一个零件的短语或描述，标记为它是否是汽车。分割、矢量化和 TF-IDF 训练数据的形状为 (12,918,16,230)。

我现在想预测新数据。我有一个包含 173 个短语的小数据集。执行向量化和 TF-IDF 后，新矩阵成形为 (173,492)。

y = df_app['Stripped Lib']
count_vect = CountVectorizer(ngram_range=(1,2))
y_count = count_vect.fit_transfor(y)
y_tfidf = tfidf_transformer(y_count)

# Predict Naive Bayes

nb_pred = mnb.predict(y_tfidf)

这会导致“ValueError：维度不匹配”。当然其他型号也一样。如何解决此矩阵不匹配以预测新数据？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

mismatch mismatch predict python tf-idf vectorization

预测新的 vectorized_tf-idf 数据时维度不匹配

问题描述

解决方法

相关问答