成对相关性和与Python中的依赖项相关性最低的删除变量

问题描述

我目前正在尝试清理数据集,并希望删除彼此相关的变量。我已经看到了一些以前共享的代码,但是似乎没有任何关于删除变量的标准。我正在尝试获取它,以便删除与相关性相关性较低的变量。

我的数据集的格式为:

名称|依存| x1 | x2 | x3 | xn |

到目前为止,我已经尝试过了,但是似乎没有用。关于如何更改我的代码的任何建议将不胜感激!

import pandas as pd
import numpy as np

dataset = pd.read_csv('tetrahymena_padel_withDep.csv')
dataf1 = dataset.drop(['Name'],axis = 1)
dataf2 = dataset.drop(['Name','Dependent'],axis = 1)

corrWithDep = dataf1.corr().iloc[0]
corrWithVar = dataf2.corr()

col_corr = set()

for i in range(len(corrWithVar.columns)):
    for j in range(i):
        if (corrWithVar.iloc[i,j] >= 0.9) and (corrWithVar.columns[j] not in col_corr):
            if (corrWithDep.iloc[i] >= corrWithDep.iloc[j]):
                colname = corrWithVar.columns[j]
                col_corr.add(colname)
            else:
                colname = corrWithVar.columns[i]
                col_corr.add(colname)
            
                if colname in dataset.columns:
                    del dataset[colname]

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...