使用SparkR创建的数据帧和使用Sparklyr创建的数据帧有什么区别?

问题描述

我正在读取Azure数据砖中的实木复合地板文件: 使用SparkR> read.parquet() 使用Sparklyr> spark_read_parquet() 这两个数据帧是不同的,是否有办法将SparkR数据帧转换为sparklyr数据帧,反之亦然?

解决方法

sparklyr创建tbl_spark。本质上,这只是用Spark SQL编写的惰性查询。 SparkR创建一个SparkDataFrame,它更多的是使用计划组织的数据集合。

以同样的方式,您不能将tbl用作普通数据。不能以与SparkDataFrame相同的方式使用tbl_spark。

我唯一想到的一种将其转换为数据湖/数据仓库或首先将其读入r的方法。

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...