Spark 二进制列拆分为多列

问题描述

我正在编写一个 Java 应用程序。我有一个产生二进制类型列的火花 Dataset<MyObject>

Dataset<MyObject> dataset = sparkSession.createDataset(someRDD,Encoders.javaSerialization(MyObject.class));
dataset.printSchema();

//root
//|-- value: binary (nullable = true)

MyObject 有不同的(嵌套)字段,我想在数据集中的多列中“分解”它们。新列还需要根据 MyObject 中的多个属性进行计算。作为解决方案,我可以使用 .withColumn() 并应用 UDF。不幸的是,我不知道如何在 UDF 中接受二进制类型,然后将其转换为 MyObject。关于如何做到这一点有什么建议吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)