SparkR和Sparklyr之间导入镶木地板文件所花费的时间差

问题描述

我正在使用SparkRsparklyr在数据块中导入镶木地板文件。

data1 = SparkR::read.df("dbfs:/.../data202007*",source = "parquet",header = TRUE,inferSchema = TRUE)

data1 = sparklyr::spark_read_parquet(sc = sc,path = "dbfs:/.../data202007*")

导入的时差巨大:SparkR为6秒,sparklyr为11分钟! 有没有办法减少sparklyr中花费的时间?我更熟悉dplyr语法,因此也更熟悉sparklyr

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)