如何处理目标变量中的时间步长与预测问题中的特征不匹配?

问题描述

背景信息:

我正在处理一些气候数据,我想使用包含气候和卫星衍生特征的数据集来预测作物产量。

这是一个时间序列回归预测问题,我想通过 XGBoost 和 Lasso 来生成我的预测。但是,我的特征和目标变量之间的采样频率不匹配;每周记录特征,每年记录目标变量。

目前,我使用宽格式表作为 ML 模型的输入数据集,但我觉得当输入表被格式化为宽格式时,我的模型没有生成准确的预测,因为有与使用长格式表格相比,样本更少。

数据表参考:

作为参考,宽格式表如下所示,其中后缀表示功能的周数:

ID crop_yield precip1 precip2 precip3 max_temp1 max_temp2 max_temp3
1100 2000 32.1 5.3 3.0 3.1 13.3 15.3 3.1
1100 2001 31.6 6.6 3.2 1.1 11.3 12.3 6.1
5903 2000 41.2 3.4 0.5 2.1 10.3 18.3 8.1
5903 2001 27.7 1.7 3.8 8.1 12.3 16.3 5.1

长格式表看起来像这样:

ID crop_yield 沉淀 max_temp
1100 2000 32.1 1 5.3 13.3
1100 2000 32.1 2 3.0 15.3
1100 2000 32.1 3 3.1 3.1
1100 2001 31.6 1 6.6 11.3
1100 2001 31.6 2 3.2 12.3
1100 2001 31.6 3 1.1 6.1
5903 2000 41.2 1 3.4 10.3
5903 2000 41.2 2 0.5 18.3
5903 2000 41.2 3 2.1 8.1
5903 2001 27.7 1 1.7 12.3
5903 2001 27.7 2 3.8 16.3
5903 2001 27.7 3 8.1 5.1

问题:

是否建议使用长格式表作为我的 ML 模型的输入?我觉得每个相关 ID 和年份的相同作物产量会让我的模型失败。

此外,是否有更好的方法来构建我尚未探索的数据?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)