选择特征时删除哪些特征

问题描述

在特征选择期间(进行了广泛的特征工程之后),是否存在任何规则来管理要删除哪些特征以及保留哪些特征? 我知道应该删除高度相关的要素或将其合并到较新的要素中,但是我还看到人们删除了与其他要素没有高度相关性但与目标变量具有显着较高的相关性(> 0.8)的列。为什么 ? 任何其他提示和帮助都将受到赞赏。

P.S。 :我知道这个问题涉及面很广,而且不完全是一个非常具体的话题。

解决方法

相对于您的PS,我同意。这可能不是该问题的合适论坛,并且如果您尝试进行另一种堆栈交换(例如理论计算机科学的交换),则可能会找到更彻底/详细的回答:https://cstheory.stackexchange.com/

虽然我们在这里,但我还是会花两分钱。就个人而言,在进行特征选择时,我会丢弃与其他IV /特征的相关性较低但与DV /目标高度相关的特征,因为这是(多重)共线性的指标,会对性能产生负面影响。这是进一步说明的链接:https://towardsdatascience.com/https-towardsdatascience-com-multicollinearity-how-does-it-create-a-problem-72956a49058

希望您能找到想要的东西,并很高兴进行调整!

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...