问题描述
我有房价 - 高级回归技术数据集。我需要对其进行套索和岭正则化。我将火车数据保存在名为 house 的变量中。输入以下代码:
house.info()
得到这个输出:enter image description here
该数据集中的列是数值型的(int64 和浮点型 64),但它们实际上是分类型的(有序型和名义型)。
我想问一下我是否可以标准化这些分类变量,还是应该首先使用 house[col_name]=house[col_name].astype(str)
将所有这些变量转换为“object”类型,然后对这些变量进行单热编码并标准化其余的数值列?
解决方法
当一列是基数时,可以应用单热编码,通过这种方式,可以对每个类别以二进制方式对分类列进行矢量化。
import pandas as pd
raw_df= pd.get_dummies(data=raw_df,cardinal_features=['col1','col2','col3'],prefix=['feature1_','feature2_','feature3_'])