直接将PySpark RDD转换为Arrow Table

问题描述

我正在映射我的PySpark RDD分区,并在所有分区上运行一个函数query.rdd.mapPartitions(proc).collect()

函数内部,我需要箭头表结构中的数据。到目前为止,我发现执行此操作的唯一方法是两步过程:

pds = pd.DataFrame(list(rdds))
pat = pyarrow.Table.from_pandas(pds)

大约三年前,有人问过类似的问题,但主要针对Scala,但当时提供的答案是,您还不能真正使用Java做到这一点。 Spark dataframe to arrow

我想避免执行此额外的转换步骤,但是我不知道有任何现有功能会让我跳过它。有没有一种方法可以更快地将RDD(或者如果我稍微调整一下结构,即PySpark Dataframe)直接转换为箭头表?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)