直接将PySpark RDD转换为Arrow Table

问题描述

我正在映射我的PySpark RDD分区,并在所有分区上运行一个函数query.rdd.mapPartitions(proc).collect()

函数内部,我需要箭头表结构中的数据。到目前为止,我发现执行此操作的唯一方法是两步过程:

pds = pd.DataFrame(list(rdds))
pat = pyarrow.Table.from_pandas(pds)

大约三年前,有人问过类似的问题,但主要针对Scala,但当时提供的答案是,您还不能真正使用Java做到这一点。 Spark dataframe to arrow

我想避免执行此额外的转换步骤,但是我不知道有任何现有功能会让我跳过它。有没有一种方法可以更快地将RDD(或者如果我稍微调整一下结构,即PySpark Dataframe)直接转换为箭头表?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...