如何在pyspark中编写具有多个agg的函数,例如sum,first,collect_set,count_distinct?

问题描述

data = data.groupby(columns_for_groupby).agg(first('AGE').alias('AGE'),first('WEIGHT').alias('WEIGHT'),first('MOBILE').alias('MOBILE'),sum('HEIGHT').alias('HEIGHT_SUM'),collect_set('WORK_EXP').alias('WORK_EXP_LIST'),F.countdistinct('PLANT').alias('PLANT_COUNT'),first('DATE').alias('DATE'))

所以我用这种格式编写了代码我有很多功能分别属于 first、sum、collect_set、F.countdistinct。我想编写一个函数,该函数获取 first、sum、collect、不同变量的列表,并通过相应的 groupby 以及相应的重命名传递数据帧。我对 pyspark 很陌生,任何帮助将不胜感激。 谢谢

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)