我们可以标准化一个实际上是分类的数字列吗?

问题描述

我有房价 - 高级回归技术数据集。我需要对其进行套索和岭正则化。我将火车数据保存在名为 house 的变量中。输入以下代码

house.info()

得到这个输出enter image description here

该数据集中的列是数值型的(int64 和浮点型 64),但它们实际上是分类型的(有序型和名义型)。

我想问一下我是否可以标准化这些分类变量,还是应该首先使用 house[col_name]=house[col_name].astype(str) 将所有这些变量转换为“object”类型,然后对这些变量进行单热编码并标准化其余的数值列?

解决方法

当一列是基数时,可以应用单热编码,通过这种方式,可以对每个类别以二进制方式对分类列进行矢量化。

import pandas as pd


raw_df= pd.get_dummies(data=raw_df,cardinal_features=['col1','col2','col3'],prefix=['feature1_','feature2_','feature3_'])

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...