高精度回归方法

问题描述

我想就我的数据集提出建议。由于我不熟悉机器学习或数据科学,我想得到你们的帮助。

我有四个特征,每个特征大约一百万行,一个输出。最终目的是进行高精度的精细回归。我尝试了一种回归方法,似乎由于大量样本,似乎存在适合百万行的非通用回归方程。

有什么方法可以尝试吗?我想到的一个想法是通过截断数据行来进行多元回归,但是我应该如何处理所有这些方程以某种方式制作“一个通用”方程,或者至少尽可能减少方程的数量以制作准- 通用?

提前致谢。

解决方法

Scikit learn 是执行此类操作的绝佳软件包 (https://scikit-learn.org/stable/)

有很多方法可以执行这种回归任务。我首先要尝试的是 LinearRegression、RandomForestRegressor、AdaBoost。

现在,您必须规定一个相关指标来衡量回归是否成功(l2 距离是最常见的,但它可能不适合您的问题)。