预测新的 vectorized_tf-idf 数据时维度不匹配

问题描述

我已经训练了四个模型(逻辑回归、朴素贝叶斯、随机森林和 SVM)来对约 13k 文本数据元素进行二元预测。对于上下文,每个元素都是一个零件的短语或描述,标记为它是否是汽车。分割、矢量化和 TF-IDF 训练数据的形状为 (12,918,16,230)。

我现在想预测新数据。我有一个包含 173 个短语的小数据集。执行向量化和 TF-IDF 后,新矩阵成形为 (173,492)。

y = df_app['Stripped Lib']
count_vect = CountVectorizer(ngram_range=(1,2))
y_count = count_vect.fit_transfor(y)
y_tfidf = tfidf_transformer(y_count)

# Predict Naive Bayes

nb_pred = mnb.predict(y_tfidf)

这会导致“ValueError:维度不匹配”。当然其他型号也一样。如何解决此矩阵不匹配以预测新数据?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...