问题描述
我正在映射我的PySpark RDD分区,并在所有分区上运行一个函数。 query.rdd.mapPartitions(proc).collect()
在函数内部,我需要箭头表结构中的数据。到目前为止,我发现执行此操作的唯一方法是两步过程:
pds = pd.DataFrame(list(rdds))
pat = pyarrow.Table.from_pandas(pds)
大约三年前,有人问过类似的问题,但主要针对Scala,但当时提供的答案是,您还不能真正使用Java做到这一点。 Spark dataframe to arrow
我想避免执行此额外的转换步骤,但是我不知道有任何现有功能会让我跳过它。有没有一种方法可以更快地将RDD(或者如果我稍微调整一下结构,即PySpark Dataframe)直接转换为箭头表?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)