问题描述
我目前正在缩放我的回归模型的训练数据,以及我最终使用 StandardScaler 分别放入模型进行预测的数据。
这会将预测数据缩放到与训练数据缩放相同的水平还是不同?那么它会因此导致错误的预测吗?
如果是这样,我如何使用与训练集相同的均值等来缩放第二个数据集?我是否必须使用前者的均值和方差手动将公式应用于第二个数据集?
谢谢
解决方法
当您缩放数据时,您应该只缩放到训练数据。否则,您的预测/测试数据的范围会影响训练数据的缩放方式,从而影响您的模型学习的内容。这是数据泄露的一种形式。
在 Python 中,你看起来像这样:
scaler = StandardScalar() # Create a scalar
scaler.fit(training_data) # Fit only to training data
scaled_training_data = scaler.transform(training_data) # What your model learns on
scaled_test_data = scaler.transform(test_data) # Scale your test data using the same scaling as the training data
(注意:您可以使用 fit_transform() 一步拟合和转换训练数据。)