问题描述
我知道如何编写可在pyspark中一次应用于所有列的自定义函数。 步骤如下: 1)在pyspark中,我使用explode函数更改数据结构,例如,如果我有10列,则将其更改为两列,一列代表列名称,第二列将代表实际列值。所以可以说我有10列100行,爆炸后将变为2列的10 * 100 = 1000行 2)然后我应用分组的熊猫udf(按包含列名称的column1分组),在其中实现我的自定义逻辑,例如,我将具有两列的数据框传递给熊猫udf,然后在熊猫udf中创建四到五个列基于前两列,然后我对最后几列求和,并返回一个数字值。
我正在尝试在Scala中找到类似的选项,尽管我可以使用UDAF /聚合器,但是后来我意识到它的工作方式不同,并且我无法在UDAF中创建列,这是我的核心要求之一
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)