问题描述
data = data.groupby(columns_for_groupby).agg(first('AGE').alias('AGE'),first('WEIGHT').alias('WEIGHT'),first('MOBILE').alias('MOBILE'),sum('HEIGHT').alias('HEIGHT_SUM'),collect_set('WORK_EXP').alias('WORK_EXP_LIST'),F.countdistinct('PLANT').alias('PLANT_COUNT'),first('DATE').alias('DATE'))
所以我用这种格式编写了代码,我有很多功能分别属于 first、sum、collect_set、F.countdistinct。我想编写一个函数,该函数将获取 first、sum、collect、不同变量的列表,并通过相应的 groupby 以及相应的重命名传递数据帧。我对 pyspark 很陌生,任何帮助将不胜感激。 谢谢
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)