问题描述
我目前正在尝试清理数据集,并希望删除彼此相关的变量。我已经看到了一些以前共享的代码,但是似乎没有任何关于删除变量的标准。我正在尝试获取它,以便删除与相关性相关性较低的变量。
我的数据集的格式为:
名称|依存| x1 | x2 | x3 | xn |
到目前为止,我已经尝试过了,但是似乎没有用。关于如何更改我的代码的任何建议将不胜感激!
import pandas as pd
import numpy as np
dataset = pd.read_csv('tetrahymena_padel_withDep.csv')
dataf1 = dataset.drop(['Name'],axis = 1)
dataf2 = dataset.drop(['Name','Dependent'],axis = 1)
corrWithDep = dataf1.corr().iloc[0]
corrWithVar = dataf2.corr()
col_corr = set()
for i in range(len(corrWithVar.columns)):
for j in range(i):
if (corrWithVar.iloc[i,j] >= 0.9) and (corrWithVar.columns[j] not in col_corr):
if (corrWithDep.iloc[i] >= corrWithDep.iloc[j]):
colname = corrWithVar.columns[j]
col_corr.add(colname)
else:
colname = corrWithVar.columns[i]
col_corr.add(colname)
if colname in dataset.columns:
del dataset[colname]
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)