是否可以通过机器学习来学习和预测NaN值？

问题描述

我正在尝试用两个输出值解决回归问题。输出值充当传入预订值的两个不同阈值，以接受或拒绝预订。

在业务案例中手动设置了两个输出值，但是这应在机器学习的帮助下自动完成。在业务案例中，输出值之一可以是Nan，然后所有预订都将接受此条件。因此，如果未填充一个输出值，则该值对业务案例有效。

示例：

X_train = np.array([(1,1),(2,2),(3,3),(4,4)])
Y_train =np.array([(1,np.nan)])
X_test = np.array([(5,5),(6,6),(7,7)])
Y_test = np.array([(5,np.nan),7)])

reg  = MLPRegressor()
reg = reg.fit(X_train,Y_train)

我的问题是，例如，当我为输出Y_train / Y_test设置NaN值时，例如scikit-learn会引发错误。

ValueError: Input contains NaN,infinity or a value too large for dtype('float64').

我不想用平均值或0来估算这些值，因为如上所述，缺失值是业务案例的有效设置。

是否可以通过scikit-learn或一般的机器学习解决此类问题？

编辑：未由业务部门设置的输出值不直接存储为NaN，而是存储为-9999999999（用于无穷大）。我用NaN替换了这些值，因为我认为这么高的值会扭曲结果。因此，如果我不替换任何内容，这些变量实际上将导致以下结果：

X_train = np.array([(1,-9999999999)])
X_test = np.array([(5,-9999999999),7)])

与NaN相比，保留这些值是否更好？或者它们会使结果失真，因此必须省略？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

machine-learning regression scikit-learn valueerror