使用SparkR创建的数据帧和使用Sparklyr创建的数据帧有什么区别?

问题描述

我正在读取Azure数据砖中的实木复合地板文件: 使用SparkR> read.parquet() 使用Sparklyr> spark_read_parquet() 这两个数据帧是不同的,是否有办法将SparkR数据帧转换为sparklyr数据帧,反之亦然?

解决方法

sparklyr创建tbl_spark。本质上,这只是用Spark SQL编写的惰性查询。 SparkR创建一个SparkDataFrame,它更多的是使用计划组织的数据集合。

以同样的方式,您不能将tbl用作普通数据。不能以与SparkDataFrame相同的方式使用tbl_spark。

我唯一想到的一种将其转换为数据湖/数据仓库或首先将其读入r的方法。