如何将数据集缩放到与另一个相同的规模？

问题描述

我目前正在缩放我的回归模型的训练数据，以及我最终使用 StandardScaler 分别放入模型进行预测的数据。

这会将预测数据缩放到与训练数据缩放相同的水平还是不同？那么它会因此导致错误的预测吗？

如果是这样，我如何使用与训练集相同的均值等来缩放第二个数据集？我是否必须使用前者的均值和方差手动将公式应用于第二个数据集？

谢谢

解决方法

当您缩放数据时，您应该只缩放到训练数据。否则，您的预测/测试数据的范围会影响训练数据的缩放方式，从而影响您的模型学习的内容。这是数据泄露的一种形式。

在 Python 中，你看起来像这样：

    scaler = StandardScalar() # Create a scalar
    scaler.fit(training_data) # Fit only to training data
    scaled_training_data = scaler.transform(training_data) # What your model learns on
    scaled_test_data = scaler.transform(test_data) # Scale your test data using the same scaling as the training data

（注意：您可以使用 fit_transform() 一步拟合和转换训练数据。）

data-science machine-learning python regression scaling