问题描述
所以我已经尝试了一段时间了。我有这个只有分类变量的矩阵,我有标签编码。通过此函数计算 p_values 时,甚至使用 scipy 的 chisquare 方法计算时,我都会得到 NaN 数组。
我拥有的 p_value 函数是:
从 scipy.stats.mstats 导入 spearmanr 将熊猫导入为 pd
def calculate_pvalues(df):
df = df.dropna()._get_numeric_data()
dfcols = pd.DataFrame(columns=df.columns)
pvalues = dfcols.transpose().join(dfcols,how='outer')
for r in df.columns:
for c in df.columns:
pvalues[r][c] = round(spearmanr(df[r],df[c])[1],4)
return pvalues
用于计算相关性:我正在使用内置的 Pandas 函数:
correlations = new.corr('spearman')
All I get is a matrix like this: 本质上是一个 NaN 数组。相关矩阵本身看起来不错,但我在使用卡方或这个 p_value 函数来计算 p_values 时遇到了问题。
附加问题:如果我有一个包含分类变量和连续变量的 Pandas 数据框,我是否可以计算所有 p_values 变量的相关性?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)