问题描述
我刚刚研究了来自 kaggle ( https://www.kaggle.com/andrewmvd/heart-failure-clinical-data ) 的“心力衰竭预测”数据集
我注意到“未死”的数量比“死”的数量多,所以我使用了 SMOTetomek,它重新采样了我的数据,我预测了准确性并打印了混淆矩阵,这在之前的结果非常好。
df.DEATH_EVENT.value_counts()
0 202
1 95
Name: DEATH_EVENT,dtype: int64
准确率和混淆矩阵:之前
0.7888888888888889
[[130 30]
[ 8 12]]
转换代码:
smt = SMOTetomek(random_state=42)
X_res,y_res = smt.fit_resample(X,y)
pd.DataFrame(y_res)['DEATH_EVENT'].value_counts()
1 155
0 155
Name: DEATH_EVENT,dtype: int64
准确率和混淆矩阵:之后
0.912
[[53 5]
[ 6 61]]
但这是一个小样本。
根据您的经验,使用过采样或欠采样方法通常会带来更好的结果吗?或者我们是否会因此得到某种错误的结果,而我们的模型在现实世界中的表现不会那么好?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)