去除多特征回归问题中的异常值

问题描述

我有一个回归问题,有 1 个目标和 10 个特征。当我通过箱线图查看每个特征的异常值时,它们有不同数量的异常值。在删除异常值的同时,我是否还需要删除与这些异常值相关联的目标值?

我的意思是,让我们说:对于 #1 特征,我有 12 个异常值,我用 12 个目标值删除了它们。然后,对于#2 特征,我有 23 个异常值,我也用 23 个目标值删除了它们,依此类推。流程是这样的,要不然怎么办?

解决方法

我想象你的每一行数据都包含一个 ID、目标值和 10 个特征值,每个特征一个。 回答我们的问题:如果你想移除异常值,你必须移除整个观察/行——你归类为异常值的值,对应的目标值,以及所有其他 9 个相应的特征值。因此,您必须过滤每一行以查找小于阈值_i 的 feature_i 条目,您将其定义为异常值。

原因是多元线性回归计算一个特征的增量变化对目标的影响,假设所有其他 9 个特征都是恒定的。在不移除目标和此观察的其他特征的情况下移除单个特征值在这样的模型中根本不起作用(假设您使用的是 OLS)。

但是,我会谨慎删除异常值。我不知道您的样本量以及您认为什么是异常值,这将有助于更多地了解您的研究问题、数据和方法。