R中的Collect函数将Spark数据帧强制转换为R Data帧

问题描述

我有一个包含2900万行的数据集,并且我正在使用Azure Databricks和SparkR来处理数据和建立预测器模型。

collect(df)命令的问题在于,它占用了群集上大量的内存空间和时间,因此,我在考虑是否有人可以通过可用于转换a的方法来帮助我Spark数据帧到R数据帧;比收集命令更有效。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)