什么是处理我的数据集中NaN值的最佳方法

问题描述

我要创建一个回归模型,但我想知道什么是处理nan值的最佳方法

我在互联网上找到了下一个解决方案:

1-替换为0:df.fillna(0,inplace=True)

2-将其替换为均值:df.fillna(df.mean(),inplace=True)

3-用中位数df.fillna(df.median(),inplace=True)

替换

4-删除目标列中具有nan值的每一行

采用2或3种方法后是否可能过度拟合。 处理列中的分类值和数值的最佳方法是什么

任何帮助都将不胜感激!

解决方法

通常,对于具有连续值的列,最好使用df.fillna(df.mean(),inplace=True),对于分类值,最好使用df.fillna(df.mode()[0],inplace=True)