问题描述
我对特征选择,采样和交叉验证的顺序感到困惑,我的数据集有468行和23000列,其中269个属于I类,199个属于II类,这些数据在拆分训练和测试时在火车中具有[215 I类和159 II类] [在测试中为54 I类和40 II类]。由于样本数量较少,我不得不对火车数据应用SMOTE过采样以减少偏差。还是我应该在此处应用欠采样,这会导致数据丢失,从而导致样本量大大减少。 I)首先应用过采样,然后进行特征选择技术,然后进行交叉验证 这样做:在交叉验证期间,由于过采样而导致行的重复,可能会引起偏差 II)首先应用特征选择技术,然后进行过度采样,然后进行交叉验证,这将产生与上述相同的偏差。 III)首先应用特征选择技术,然后在10倍交叉验证中对9倍数据进行采样。 IV)从交叉验证开始,在每次迭代中执行特征选择,然后对选定的特征数据执行过采样。 V)从交叉验证开始,在每次迭代中对9折数据进行采样,并对9折数据进行特征选择
哪种技术是正确的方法,也能提供良好的结果。
解决方法
SMOTE论文描述了应该在采样之前执行特征选择。