问题描述
我有一个很大的 pyspark 数据框,其中列是一些产品,行是随着时间推移的价格。我需要计算所有产品的协方差矩阵,但是数据太大,无法转换为pandas数据框,所以我需要用pyspark来做。我到处搜索它,但找不到解决此问题的方法。有没有人知道如何做到这一点?
我已经有了相关矩阵,所以任何使用标准差对角矩阵的方法也很受欢迎。
Here 是我的数据框的两列示例。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)