过采样和欠采样方法是否有助于构建好的模型？

问题描述

我刚刚研究了来自 kaggle ( https://www.kaggle.com/andrewmvd/heart-failure-clinical-data ) 的“心力衰竭预测”数据集

我注意到“未死”的数量比“死”的数量多，所以我使用了 SMOTetomek，它重新采样了我的数据，我预测了准确性并打印了混淆矩阵，这在之前的结果非常好。

df.DEATH_EVENT.value_counts()

0    202
1     95
Name: DEATH_EVENT,dtype: int64

准确率和混淆矩阵：之前

0.7888888888888889
[[130  30]
[  8  12]]

转换代码：

smt = SMOTetomek(random_state=42)
X_res,y_res = smt.fit_resample(X,y)
pd.DataFrame(y_res)['DEATH_EVENT'].value_counts()

1    155
0    155
Name: DEATH_EVENT,dtype: int64

准确率和混淆矩阵：之后

0.912
[[53  5]
[ 6 61]]

但这是一个小样本。

根据您的经验，使用过采样或欠采样方法通常会带来更好的结果吗？或者我们是否会因此得到某种错误的结果，而我们的模型在现实世界中的表现不会那么好？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

data-science imbalanced-data kaggle oversampling python