处理多元回归问题时,如何处理目标变量的较大变化?

问题描述

我正在研究回归问题,其中有三个预测变量[count],[mean],[usage]一个目标变量Max_utilization。我的数据如下所示:

df1

count   mean    usage   Max_utilzation
1      8515     5.305   23570
1      7906     5.985   5347
1      7819     5.245   121296
1      7646     14.735  19547
1      7852     10.255  569256
1      7852     10.255  569256
1      7852     9.52    7872
2      7033     18.675  8744
2      7030     6.72    185786
2      6998     12.1    94806.6
2      6987     14.535  4766
2      6971     12.145  281594
2      6960     7.405   140075
2      6963     4.83    13328

我们可以看到,对于count的单个值,分配了多个Max_utilization值,并且它们的变化很大。 我使用log对预测变量进行了np.log10转换,然后使用RandomForestRegressor模型来拟合火车数据。

当我检查预测时,发现我的预测不准确。可以说,test数据中对我的记录的预测看起来像这样:

count  mean usage prediction
1      7200 4.9   9320

在上述情况下,我的模型将值预测为9320,但是实际值是7845

我假设此预测是因为在我的数据帧列count中,为单个值分配了Max_utilization的多个值。因此,我的模型正在预测{{1}之间的值}和min目标变量的范围。如果我写错了,请纠正我。

还有任何方法可以解决此问题以获得更准确的结果。

我也尝试对目标变量进行归一化,在预测之后我尝试对目标变量进行逆变换。但这对我没有用。

我还尝试将每一列的平均值取为max的单个值。但是,这对我也不起作用。

count

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)