功能选择之前或之后进行采样

问题描述

我对特征选择,采样和交叉验证的顺序感到困惑,我的数据集有468行和23000列,其中269个属于I类,199个属于II类,这些数据在拆分训练和测试时在火车中具有[215 I类和159 II类] [在测试中为54 I类和40 II类]。由于样本数量较少,我不得不对火车数据应用SMOTE过采样以减少偏差。还是我应该在此处应用欠采样,这会导致数据丢失,从而导致样本量大大减少。 I)首先应用过采样,然后进行特征选择技术,然后进行交叉验证 这样做:在交叉验证期间,由于过采样而导致行的重复,可能会引起偏差 II)首先应用特征选择技术,然后进行过度采样,然后进行交叉验证,这将产生与上述相同的偏差。 III)首先应用特征选择技术,然后在10倍交叉验证中对9倍数据进行采样。 IV)从交叉验证开始,在每次迭代中执行特征选择,然后对选定的特征数据执行过采样。 V)从交叉验证开始,在每次迭代中对9折数据进行采样,并对9折数据进行特征选择

哪种技术是正确的方法,也能提供良好的结果。

解决方法

SMOTE论文描述了应该在采样之前执行特征选择。

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...