问题描述
我要创建一个回归模型,但我想知道什么是处理nan值的最佳方法:
1-替换为0:df.fillna(0,inplace=True)
2-将其替换为均值:df.fillna(df.mean(),inplace=True)
3-用中位数df.fillna(df.median(),inplace=True)
4-删除目标列中具有nan值的每一行
采用2或3种方法后是否可能过度拟合。 处理列中的分类值和数值的最佳方法是什么
任何帮助都将不胜感激!
解决方法
通常,对于具有连续值的列,最好使用df.fillna(df.mean(),inplace=True)
,对于分类值,最好使用df.fillna(df.mode()[0],inplace=True)
。