标准化或标准化分类值

问题描述

我对数据科学还很陌生(我使用的是 Python),我发现在进一步研究之前先对数据进行标准化或规范化对我们来说更好。我的问题是:

  1. 如果存在分类值(二进制并使用一种热编码,0 或 1),例如男性或女性,我们是否需要对此类数据进行标准化或归一化?
  2. 如果分类数据是非二进制数据,例如,您的健康状况(1= 差,2= 非常健康,3= 健康,4= 健康,5= 非常健康)会怎样。我们还需要对这类数据进行标准化或规范化吗?

解决方法

如果您有 2 个以上的分类值,最好将它们转换为一种热编码。分类值不应具有数学关系。如果您无法解释分类数据之间的数学顺序(例如适合 > 健康?),您应该创建一个热向量并将其表示为特征:

                 Old Version      New version
                              1th 2th  3th  4th  5th  6th
poor              1           0   0    0    0    0     1
quite             2           0   0    0    0    1     0
healthy           3           0   0    0    1    0     0
healthy           4           0   0    1    0    0     0
fit               5           0   1    0    0    0     0
very fit          6           1   0    0    0    0     0

基本上,您有 6 个新功能,每个功能都代表您的一个类别。

注意:不需要对二进制数据应用归一化或标准化,因为它已经在 [0,1] 中