文本挖掘预处理必须应用于测试还是训练集?

问题描述

我正在做一些文本挖掘任务,我有一个如此简单的问题,但我仍然无法得出结论。

我正在对我的训练集应用预处理,例如标记化和词干提取,以便我可以训练我的模型。

我是否也应该将此预处理应用于我的测试集?

解决方法

是的,您应该将相同的内容应用于您的测试集。因为您的测试集必须代表您的训练集,这就是为什么它们应该来自相同的分布。让我们凭直觉思考:

您将参加考试。为了备考并获得正常的成绩,讲师应在讲座中询问相同的主题。但是,如果讲师从完全不同的主题提出问题,而没有人见过,则不可能得到正常的结果。

,

当然应该。如果没有,您如何将测试数据输入到您的训练模型中?