处理钛酸数据集中的缺失数据

问题描述

一个泰坦尼克号数据集。它具有“年龄”独立功能,缺少177个值。我在github中寻找一种解决方案,但听不懂一行。你们能给我解释一下吗?

该行是:

data['Age'].dropna().sample(data['Age'].isnull().sum(),random_state=0)

解决方法

首先,它使用dropna丢弃空值

data['Age'].dropna()

然后使用上面的输出,它sample是非空列,具有相同长度的非空值

sample(data['Age'].isnull().sum(),random_state=0)