如何仅从文本数据准备测试数据集?

问题描述

我正在使用LinearSVC和python中的文本数据集执行ML分类任务。 我已经使用Sklearn(train_test_split)创建了训练和测试数据集。 该算法在我的数据集上正常工作。我的问题是,我有具有相同类的相似数据集。我想用这个新的数据集测试我的算法。如何将新数据集作为测试数据集输入到模型中?如何为同一数据集做出预测并检查准确性?进行预测的数据集的格式可能是什么?这样我就可以检查新数据集的准确性。

我检查了我从火车测试拆分创建的测试数据集。它是数组形式。如何将数据集转换为数组格式?

请帮助我解决这个问题。

您发现我的代码如下。其中“主题”是包含类名称的变量。其中“文本”是组成文本数据的列。

data['category_id'] = data['Topic'].factorize()[0]
category_id_data = data[['Topic','category_id']].drop_duplicates().sort_values('category_id')
category_to_id = dict(category_id_data.values)
id_to_category = dict(category_id_data[['category_id','Topic']].values)

tfidf = TfidfVectorizer(sublinear_tf=True,min_df=5,norm='l2',encoding='latin-1',ngram_range=(1,2))
features = tfidf.fit_transform(data.Text).toarray()
labels = data.category_id

model1 = LinearSVC()
X_train,X_test,y_train,y_test,indices_train,indices_test = 
train_test_split(features,labels,data.index,test_size=0.2,random_state=0)
model1.fit(X_train,y_train)
y_pred = model1.predict(X_test)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...