pyspark中多列包含null时的加权平均计算

问题描述

我有一个如下形式的火花数据框:

enter image description here

我想计算一个加权的总分,这将分别为任务、流程和功能提供一些 x1、x2、x3 权重。得分公式为 (len([common_i]/(len[Name_i]+len[Ref_Name_i]-len[common_i]))。其中 i 代表任务/进程/功能。但是,对于 [Name_i ] 和 [Ref_Name_i] 都为空,我想将加权平均值的分母设为 (1- xi) 而不是 1。任何人都可以帮助我

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)