直接将PySpark RDD转换为Arrow Table

我正在映射我的PySpark RDD分区，并在所有分区上运行一个函数。 query.rdd.mapPartitions(proc).collect()

在函数内部，我需要箭头表结构中的数据。到目前为止，我发现执行此操作的唯一方法是两步过程：

pds = pd.DataFrame(list(rdds))
pat = pyarrow.Table.from_pandas(pds)

大约三年前，有人问过类似的问题，但主要针对Scala，但当时提供的答案是，您还不能真正使用Java做到这一点。 Spark dataframe to arrow

我想避免执行此额外的转换步骤，但是我不知道有任何现有功能会让我跳过它。有没有一种方法可以更快地将RDD（或者如果我稍微调整一下结构，即PySpark Dataframe）直接转换为箭头表？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）