Spark Imputer用于填充缺失值

问题描述

要求-

在所附图片中,将前3列视为原始数据。有些行的数量列为NULL值,而这正是我要填充的值。 在理想情况下,我将使用先前的KNOWN值填充所有NULL值。

Spark Imputer似乎是一个非常容易实现的库,可以帮助我填补缺失的值。 但是这里的问题是,Spark Imputer只能根据数据帧中存在的所有非布尔值来进行均值或中值计算,结果我没有得到预期的结果(图4的第4列)。

逻辑-

val imputer = new Imputer()
          .setInputCols(Array("quantity"))
          .setOutputCols(Array("quantity_imputed"))
          .setStrategy("mean")

val model = imputer.fit(new_combinedDf)
model.transform(new_combinedDf).show()

结果-

Result

现在是否可以将EACH空值的均值计算限制为最近n个值的均值? 即 对于2020-09-26,我们获得第一个空值,是否有可能调整Spark Imputer以仅计算最后n个值而不是数据帧中所有非空值的均值?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)