问题描述
在GIS问题中,假设我想对具有从a到e的6个属性作为自变量的数据集进行回归分析,例如:
a,b,c,d,e,f
5,6,7,8,1,0
e和f是伪变量,只能为0或1。现在,我想标准化此数据集以进行回归准备,但我必须避免标准化e和f。正常的标准化代码如下:
##difine a standardization function
def standarize_data(data,stats):
return (data - stats['mean'])/ stats['std']
## Complete standardization
data_standardizd = standarize_data(dataset,dataset_statistic)
这是问题所在,如果我直接执行此部分,则哑变量也将被标准化,我该如何避免采用正确的格式?
我尝试这样的代码:
data_standardizd = standarize_data(dataset[a,b,c,d],dataset_statistic)
返回错误
KeyError: ('a','b','c','d')
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)