问题描述
要求-
在所附图片中,将前3列视为原始数据。有些行的数量列为NULL值,而这正是我要填充的值。 在理想情况下,我将使用先前的KNOWN值填充所有NULL值。
Spark Imputer似乎是一个非常容易实现的库,可以帮助我填补缺失的值。 但是这里的问题是,Spark Imputer只能根据数据帧中存在的所有非布尔值来进行均值或中值计算,结果我没有得到预期的结果(图4的第4列)。
逻辑-
val imputer = new Imputer()
.setInputCols(Array("quantity"))
.setOutputCols(Array("quantity_imputed"))
.setStrategy("mean")
val model = imputer.fit(new_combinedDf)
model.transform(new_combinedDf).show()
结果-
现在是否可以将EACH空值的均值计算限制为最近n个值的均值? 即 对于2020-09-26,我们获得第一个空值,是否有可能调整Spark Imputer以仅计算最后n个值而不是数据帧中所有非空值的均值?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)