通过 RDD 和缓存作用进行 Apache Spark 数据帧沿袭修剪

问题描述

如何修剪 Apache Spark 数据帧沿袭有以下技巧,特别是对于迭代计算:

def getCachedDataFrame(df: DataFrame): DataFrame = {
    val rdd = df.rdd.cache()
    df.sqlContext.createDataFrame(rdd,df.schema)
}

这看起来像是某种纯粹的魔法,但现在我想知道为什么我们需要在 RDD 上调用 cache() 方法?在这种沿袭修剪逻辑中设置缓存的目的是什么?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...