在数据集的不同部分上整合相同scikit学习回归器的多个实例

问题描述

我目前正在将sklearn回归变量安装在一个非常大的数据集（考虑数十亿行）上，并且鉴于我的硬件/云选项，我无法在没有OOM错误的情况下对整个数据运行该回归变量。因此，我认为在数据集的各个部分上运行相同的回归变量（例如一次1％），对其进行训练并执行100次，然后合计最后一个阶段的估计量，以简单地对预测取平均值即可。

我的问题是，这是否有助于解决内存问题，或者经过几次迭代后是否会遇到类似的问题？

如果是，如何实现？据我所知，sklearn集成中的集成方法首先是学习者，然后在相同的数据集上对它们进行训练（例如“ votingRegressor”），和/或实施经过交叉验证的某些最终阶段估计器（例如“ stackingRegressor”）。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

bigdata ensemble-learning python scikit-learn