问题描述
我正在研究具有数值特征和目标的回归模型。
y : the weight of wastes collected in recycling bins
Xi : features about demography or urban elements around,or appearance of the bin
我注意到我的似乎对目标没有影响的特征也几乎与数据集中不平衡的特征相同。
i.e : "type of bin" -> 66 are buried vs 752 over the ground
*(nb : I used 0/1 for having numerical data)*
我会看看这些特征在使用过采样时是否会产生更大的影响。
我首先尝试了一种手工方式:复制少数类的数据。
i.e : I duplicated 5 times the 66 bins that are buried
对于某些特征,线性回归的系数显着更高,但随机森林的特征重要性都没有。
我会通过使用 SMOTE 来精确我的结果,以得出这些特征是否对目标产生影响的结论。
我发现我们可以使用 SMOTE 通过 smogn 或 resreg 包进行回归。
但我没有找到如何在功能上使用它(不是在目标上:功能不平衡在这里)。
你知道解决方法吗? (我的意思是:你知道我是否可以改变 SMOTE 的参数,或使用另一个函数来对特征而不是目标采取行动吗?)
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)