数据帧上的spark GROUPED_MAP udf是否并行运行？

问题描述

我正在尝试应用PandasUDFType.GROUPED_MAP函数，该函数将数据帧作为输入并产生数据帧作为输出。当我执行sdf.groupby（key）.apply（pandas_udf）时，它会根据可用资源将功能并行应用到多个组，还是依次将一组应用到另一组？我没有更改spark的任何默认设置。如果要在组上并行执行udf，我还可以采用什么其他选择。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

apache-spark apache-spark-sql pyspark user-defined-functions