问题描述
在我的数据集中,其中一列是布尔值,并且数据集中和其他连续变量列中存在缺失值,这些值已成功替换为其平均值。但是平均值不能被替换为缺少布尔值。那么我该如何替换这些值?
请注意,我的数据集中的布尔值是 1 或 0。
以下是替换连续缺失值的代码:
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan,strategy='mean')
imputer.fit(x)
x = imputer.transform(x)
谢谢
解决方法
有几种方法可以解决这个问题。
- 如果你负担得起(如果你有足够的数据)排除这些行
- 用多数值替换那些行(与用连续值的平均值替换相同)
- 对于时间序列 - 用前后 x 个单元格的平均值替换单元格,并设置一个高于它的阈值 - 平均值将变为 0,否则平均值将变为 0
您可以将此布尔变量视为分类特征,然后将 SimpleImputer
与 most_frequent
策略一起使用,而不是 mean
。
您可以这样做:
from sklearn.impute import SimpleImputer
import numpy as np
#Create sample data with nans
X = np.random.randint(2,size=100).reshape(1,-1).astype(float)
X[0,::4] = np.nan
SimpleImputer(strategy="most_frequent").fit_transform(X)