Spark Imputer用于填充缺失值

问题描述

要求-

在所附图片中，将前3列视为原始数据。有些行的数量列为NULL值，而这正是我要填充的值。在理想情况下，我将使用先前的KNOWN值填充所有NULL值。

Spark Imputer似乎是一个非常容易实现的库，可以帮助我填补缺失的值。但是这里的问题是，Spark Imputer只能根据数据帧中存在的所有非布尔值来进行均值或中值计算，结果我没有得到预期的结果（图4的第4列）。

逻辑-

val imputer = new Imputer()
          .setInputCols(Array("quantity"))
          .setOutputCols(Array("quantity_imputed"))
          .setStrategy("mean")

val model = imputer.fit(new_combinedDf)
model.transform(new_combinedDf).show()

结果-

现在是否可以将EACH空值的均值计算限制为最近n个值的均值？即对于2020-09-26，我们获得第一个空值，是否有可能调整Spark Imputer以仅计算最后n个值而不是数据帧中所有非空值的均值？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

apache-spark imputation scala