文本挖掘预处理必须应用于测试还是训练集？

我正在做一些文本挖掘任务，我有一个如此简单的问题，但我仍然无法得出结论。

我正在对我的训练集应用预处理，例如标记化和词干提取，以便我可以训练我的模型。

我是否也应该将此预处理应用于我的测试集？

是的，您应该将相同的内容应用于您的测试集。因为您的测试集必须代表您的训练集，这就是为什么它们应该来自相同的分布。让我们凭直觉思考：

您将参加考试。为了备考并获得正常的成绩，讲师应在讲座中询问相同的主题。但是，如果讲师从完全不同的主题提出问题，而没有人见过，则不可能得到正常的结果。

当然应该。如果没有，您如何将测试数据输入到您的训练模型中？