问题描述
我正在研究回归问题,其中有三个预测变量[count],[mean],[usage]
和一个目标变量Max_utilization
。我的数据如下所示:
df1
count mean usage Max_utilzation
1 8515 5.305 23570
1 7906 5.985 5347
1 7819 5.245 121296
1 7646 14.735 19547
1 7852 10.255 569256
1 7852 10.255 569256
1 7852 9.52 7872
2 7033 18.675 8744
2 7030 6.72 185786
2 6998 12.1 94806.6
2 6987 14.535 4766
2 6971 12.145 281594
2 6960 7.405 140075
2 6963 4.83 13328
我们可以看到,对于count
的单个值,分配了多个Max_utilization
值,并且它们的变化很大。
我使用log
对预测变量进行了np.log10
转换,然后使用RandomForestRegressor
模型来拟合火车数据。
当我检查预测时,发现我的预测不准确。可以说,test
数据中对我的记录的预测看起来像这样:
count mean usage prediction
1 7200 4.9 9320
在上述情况下,我的模型将值预测为9320
,但是实际值是7845
。
我假设此预测是因为在我的数据帧列count
中,为单个值分配了Max_utilization
的多个值。因此,我的模型正在预测{{1}之间的值}和min
目标变量的范围。如果我写错了,请纠正我。
我也尝试对目标变量进行归一化,在预测之后我尝试对目标变量进行逆变换。但这对我没有用。
我还尝试将每一列的平均值取为max
的单个值。但是,这对我也不起作用。
count
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)