问题描述
我正在编写一个 Java 应用程序。我有一个产生二进制类型列的火花 Dataset<MyObject>
:
Dataset<MyObject> dataset = sparkSession.createDataset(someRDD,Encoders.javaSerialization(MyObject.class));
dataset.printSchema();
//root
//|-- value: binary (nullable = true)
MyObject
有不同的(嵌套)字段,我想在数据集中的多列中“分解”它们。新列还需要根据 MyObject
中的多个属性进行计算。作为解决方案,我可以使用 .withColumn()
并应用 UDF。不幸的是,我不知道如何在 UDF 中接受二进制类型,然后将其转换为 MyObject
。关于如何做到这一点有什么建议吗?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)