问题描述
我正在读取Azure数据砖中的实木复合地板文件: 使用SparkR> read.parquet() 使用Sparklyr> spark_read_parquet() 这两个数据帧是不同的,是否有办法将SparkR数据帧转换为sparklyr数据帧,反之亦然?
解决方法
sparklyr创建tbl_spark。本质上,这只是用Spark SQL编写的惰性查询。 SparkR创建一个SparkDataFrame,它更多的是使用计划组织的数据集合。
以同样的方式,您不能将tbl用作普通数据。不能以与SparkDataFrame相同的方式使用tbl_spark。
我唯一想到的一种将其转换为数据湖/数据仓库或首先将其读入r的方法。