对分类数据进行热编码时,如何处理丢失的数据?

问题描述

我正在尝试对包含缺失值'N'的2D numpy数组应用一种热编码。我有以下代码,可以在不丢失任何值的情况下很好地工作。

import numpy as np
X = [['A','G'],['N','C'],['T','A']]
X = np.array(X)
print('Shape of data before one hot encoding: ',X.shape)
classes = np.array(['A','C','G','T'])
X = np.searchsorted(classes,X)
eye = np.eye(classes.shape[0])
onehotlabels = np.concatenate([eye[i] for i in X.T],axis=1)
print('Shape of data after pre-processing: ',onehotlabels.shape)
print(onehotlabels)


Output:
Shape of data before one hot encoding:  (3,2)
Shape of data after pre-processing:  (3,8)
[[1. 0. 0. 0. 0. 0. 1. 0.]
[0. 0. 0. 1. 0. 1. 0. 0.]
[0. 0. 0. 1. 1. 0. 0. 0.]]

是否可以通过这种方法将“ N”替换为0 0 0 0?输出将如下所示:

[[1. 0. 0. 0. 0. 0. 1. 0.]
[0. 0. 0. 0. 0. 1. 0. 0.]
[0. 0. 0. 1. 1. 0. 0. 0.]]

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...