功能选择之前或之后进行采样

问题描述

我对特征选择，采样和交叉验证的顺序感到困惑，我的数据集有468行和23000列，其中269个属于I类，199个属于II类，这些数据在拆分训练和测试时在火车中具有[215 I类和159 II类] [在测试中为54 I类和40 II类]。由于样本数量较少，我不得不对火车数据应用SMOTE过采样以减少偏差。还是我应该在此处应用欠采样，这会导致数据丢失，从而导致样本量大大减少。 I）首先应用过采样，然后进行特征选择技术，然后进行交叉验证这样做：在交叉验证期间，由于过采样而导致行的重复，可能会引起偏差 II）首先应用特征选择技术，然后进行过度采样，然后进行交叉验证，这将产生与上述相同的偏差。 III）首先应用特征选择技术，然后在10倍交叉验证中对9倍数据进行采样。 IV）从交叉验证开始，在每次迭代中执行特征选择，然后对选定的特征数据执行过采样。 V）从交叉验证开始，在每次迭代中对9折数据进行采样，并对9折数据进行特征选择

哪种技术是正确的方法，也能提供良好的结果。

解决方法

SMOTE论文描述了应该在采样之前执行特征选择。

data-science machine-learning python sampling