在数据集的不同部分上整合相同scikit学习回归器的多个实例

问题描述

我目前正在将sklearn回归变量安装在一个非常大的数据集(考虑数十亿行)上,并且鉴于我的硬件/云选项,我无法在没有OOM错误的情况下对整个数据运行该回归变量。因此,我认为在数据集的各个部分上运行相同的回归变量(例如一次1%),对其进行训练并执行100次,然后合计最后一个阶段的估计量,以简单地对预测取平均值即可。

我的问题是,这是否有助于解决内存问题,或者经过几次迭代后是否会遇到类似的问题?

如果是,如何实现?据我所知,sklearn集成中的集成方法首先是学习者,然后在相同的数据集上对它们进行训练(例如“ votingRegressor”),和/或实施经过交叉验证的某些最终阶段估计器(例如“ stackingRegressor”)。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...