如何计算pyspark数据帧的协方差矩阵?

问题描述

我有一个很大的 pyspark 数据框,其中列是一些产品,行是随着时间推移的价格。我需要计算所有产品的协方差矩阵,但是数据太大,无法转换为pandas数据框,所以我需要用pyspark来做。我到处搜索它,但找不到解决此问题的方法。有没有人知道如何做到这一点?

我已经有了相关矩阵,所以任何使用标准差对角矩阵的方法也很受欢迎。

Here 是我的数据框的两列示例。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)