问题描述
我正在使用SparkR
和sparklyr
在数据块中导入镶木地板文件。
data1 = SparkR::read.df("dbfs:/.../data202007*",source = "parquet",header = TRUE,inferSchema = TRUE)
data1 = sparklyr::spark_read_parquet(sc = sc,path = "dbfs:/.../data202007*")
导入的时差巨大:SparkR
为6秒,sparklyr
为11分钟!
有没有办法减少sparklyr
中花费的时间?我更熟悉dplyr
语法,因此也更熟悉sparklyr
。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)