如何编写可在Scala中一次在所有列上实现的自定义函数

问题描述

我知道如何编写可在pyspark中一次应用于所有列的自定义函数。步骤如下： 1）在pyspark中，我使用explode函数更改数据结构，例如，如果我有10列，则将其更改为两列，一列代表列名称，第二列将代表实际列值。所以可以说我有10列100行，爆炸后将变为2列的10 * 100 = 1000行 2）然后我应用分组的熊猫udf（按包含列名称的column1分组），在其中实现我的自定义逻辑，例如，我将具有两列的数据框传递给熊猫udf，然后在熊猫udf中创建四到五个列基于前两列，然后我对最后几列求和，并返回一个数字值。

我正在尝试在Scala中找到类似的选项，尽管我可以使用UDAF /聚合器，但是后来我意识到它的工作方式不同，并且我无法在UDAF中创建列，这是我的核心要求之一

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

aggregate-functions apache-spark custom-function pyspark scala