将大数据帧转换为 nd.array，做 spearman corr

问题描述

我有一个大数据，由样本作为索引和名称作为标题（500 X 30000）组成。例如：

          Name1    Name2    Name3
Sample1   232.12   0.239    -0.324
Sample2   0.928    23.213   -0.056
Sample3   -0.231   7.7776   -0.984

我想得到的：

          Name1    Name2    Name3
Name1      1        0.001    corr val
Name2      corr val   1      corr val
Name3      corr val  corr val   1

等等。

我想过：

np.corrcoef(data)

但它只是“pearsons”，而且我收到了一个错误，声称数据很大。

我尝试拆分它

lst = []
data = For_spearman.to_numpy()
#data = np.delete(data,(0),axis=0)
data_size = len(data)-1
for key1 in range(1,data_size): #Ignoring first column which is index
    if key1 != data_size-1: # Cant compare after the last row,so -1 and -1.
        for key2 in range(key1+1,data_size): # Comparing name1 vs name2
            test = scipy.stats.spearmanr(data[key1][1:],data[key2][1:])
            lst .append([data[key1][0],data[key2][0],test])
            pd.DataFrame(lst ).to_csv('ForSpearman.csv')

但我只是弄得一团糟，因为我总是以某种方式被 nd.array 纠缠不清.. 我怎样才能做“np.corrcoef”工作，但以“spearman”方式进行拆分，以便每次都将一个数组与另一个数组进行比较？

解决方法

这是您的问题，您正在尝试创建一个 30000 x 30000 的矩阵，仅此矩阵就有 7.2GB。对于中间阵列，16GB 可能不够。不过，一种方法是循环。它会很慢，但可能在您的系统上可行：

df = pd.DataFrame(np.random.rand(500,30000))

out = pd.DataFrame(index=df.columns,columns = df.columns)

# you can also loop in chunks of columns
for col in df:
    out[col] = df.corrwith(df[col],method='spearman')

更新：以下内容可能对内存要求较低

out = pd.concat([df.corrwith(df[col],method='spearman')
                   .to_frame(name=col) for col in df.columns],axis=1)

尽管如此，我认为 12~16GB 在这种情况下非常有限。此外，循环将花费很长时间。

correlation numpy-ndarray pandas pandas