一种热编码保留用于插补的 NA

问题描述

我正在尝试使用 KNN 在 python 中输入分类变量。

为此，一种典型的方法是对变量进行热编码。但是 sklearn OneHotEncoder() 不处理 NA，因此您需要将它们重命名为创建单独变量的名称。

可重现的小例子：

import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer

#Create random pandas with categories to impute
data0 = pd.DataFrame(columns=["1","2"],data = [["A",np.nan],["B","A"],[np.nan,["A","B"]])

原始数据框：

data0
     1    2
0    A  NaN
1    B    A
2  NaN    A
3    A    B

继续一种热编码：

#Rename for sklearn OHE
enc_missing = SimpleImputer(strategy="constant",fill_value="missing")
data1 = enc_missing.fit_transform(data0)
# Perform OHE:
OHE = OneHotEncoder(sparse=False)
data_OHE = OHE.fit_transform(data1)

Data_OHE 现在是一种热编码：

Data_OHE
array([[1.,0.,1.],[0.,1.,0.],[1.,0.]])

但是由于单独的“缺失”类别 - 我不再需要归咎于任何 nans。

我想要的一种热编码的输出

array([[1,np.nan,[0,1,0   ],[1,1   ]
       ])

这样我就保留了 nans 以备后用。

你知道有什么方法可以做到这一点吗？

据我所知，这是在 scikit-learn Github repo here 和 here，即让 OneHotEncoder 使用 handle_missing 参数自动处理此问题，但我不确定他们的工作状态。

解决方法

OneHotEncoder 中缺失值的处理最终合并到 PR17317 中，但它的运行方式只是将缺失值视为一个新类别（如果我理解正确，没有其他处理选项）。

this answer 中描述了一种手动方法。由于上述 PR，第一步现在不是绝对必要的，但也许填充自定义文本会更容易找到该列？

missing-data nan one-hot-encoding python scikit-learn