问题描述
我正在尝试用两个输出值解决回归问题。输出值充当传入预订值的两个不同阈值,以接受或拒绝预订。
在业务案例中手动设置了两个输出值,但是这应在机器学习的帮助下自动完成。在业务案例中,输出值之一可以是Nan,然后所有预订都将接受此条件。因此,如果未填充一个输出值,则该值对业务案例有效。
示例:
X_train = np.array([(1,1),(2,2),(3,3),(4,4)])
Y_train =np.array([(1,np.nan)])
X_test = np.array([(5,5),(6,6),(7,7)])
Y_test = np.array([(5,np.nan),7)])
reg = MLPRegressor()
reg = reg.fit(X_train,Y_train)
我的问题是,例如,当我为输出Y_train / Y_test设置NaN值时,例如scikit-learn会引发错误。
ValueError: Input contains NaN,infinity or a value too large for dtype('float64').
我不想用平均值或0来估算这些值,因为如上所述,缺失值是业务案例的有效设置。
是否可以通过scikit-learn或一般的机器学习解决此类问题?
编辑:未由业务部门设置的输出值不直接存储为NaN,而是存储为-9999999999(用于无穷大)。我用NaN替换了这些值,因为我认为这么高的值会扭曲结果。因此,如果我不替换任何内容,这些变量实际上将导致以下结果:
X_train = np.array([(1,-9999999999)])
X_test = np.array([(5,-9999999999),7)])
与NaN相比,保留这些值是否更好?或者它们会使结果失真,因此必须省略?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)