如何仅从文本数据准备测试数据集？

问题描述

我正在使用LinearSVC和python中的文本数据集执行ML分类任务。我已经使用Sklearn（train_test_split）创建了训练和测试数据集。该算法在我的数据集上正常工作。我的问题是，我有具有相同类的相似数据集。我想用这个新的数据集测试我的算法。如何将新数据集作为测试数据集输入到模型中？如何为同一数据集做出预测并检查准确性？进行预测的数据集的格式可能是什么？这样我就可以检查新数据集的准确性。

我检查了我从火车测试拆分创建的测试数据集。它是数组形式。如何将数据集转换为数组格式？

请帮助我解决这个问题。

您发现我的代码如下。其中“主题”是包含类名称的变量。其中“文本”是组成文本数据的列。

data['category_id'] = data['Topic'].factorize()[0]
category_id_data = data[['Topic','category_id']].drop_duplicates().sort_values('category_id')
category_to_id = dict(category_id_data.values)
id_to_category = dict(category_id_data[['category_id','Topic']].values)

tfidf = TfidfVectorizer(sublinear_tf=True,min_df=5,norm='l2',encoding='latin-1',ngram_range=(1,2))
features = tfidf.fit_transform(data.Text).toarray()
labels = data.category_id

model1 = LinearSVC()
X_train,X_test,y_train,y_test,indices_train,indices_test = 
train_test_split(features,labels,data.index,test_size=0.2,random_state=0)
model1.fit(X_train,y_train)
y_pred = model1.predict(X_test)

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

classification machine-learning python-3.x test-data text-classification