计算分类变量的 p_values 给了我 Nans如何解决这个问题？

问题描述

所以我已经尝试了一段时间了。我有这个只有分类变量的矩阵，我有标签编码。通过此函数计算 p_values 时，甚至使用 scipy 的 chisquare 方法计算时，我都会得到 NaN 数组。

我拥有的 p_value 函数是：

从 scipy.stats.mstats 导入 spearmanr 将熊猫导入为 pd

def calculate_pvalues(df):
    df = df.dropna()._get_numeric_data()
    dfcols = pd.DataFrame(columns=df.columns)
    pvalues = dfcols.transpose().join(dfcols,how='outer')
    for r in df.columns:
        for c in df.columns:
            pvalues[r][c] = round(spearmanr(df[r],df[c])[1],4)
    return pvalues

用于计算相关性：我正在使用内置的 Pandas 函数：

correlations = new.corr('spearman')

All I get is a matrix like this: 本质上是一个 NaN 数组。相关矩阵本身看起来不错，但我在使用卡方或这个 p_value 函数来计算 p_values 时遇到了问题。

附加问题：如果我有一个包含分类变量和连续变量的 Pandas 数据框，我是否可以计算所有 p_values 变量的相关性？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

correlation python statistics