如何改善精度低的回归问题?

问题描述

我想解决一个小的回归问题。 我的数据集包含两个功能

  • 一个国家的人口
  • 代表人数

所以,我的目标是:给定一个国家的人口,我得到了代表的估计数量。问题是使用线性回归可以得到50%的准确性。 可以通过数据分发来激发这种动机吗? 这里是数据集的一些描述符:

enter image description here

这是我的散点图:

enter image description here

我是ML的新手,我想自己做一些事情。如何改善我的模型?我在想:

  • 使用非线性回归来更好地拟合数据
  • 改善我的数据集(例如删除异常值)

解决方法

您的数据与线性回归不兼容(至少在尝试应用OLS时),因为您在所附图表中看到的是激进的heteroskedasticity。有一些技术可以帮助您获得更好的结果,例如通过可靠的标准误差计算执行线性回归。

由于您是ML的新手,因此可能尝试执行回归以获得更好的效果,因此建议您只关注图表左下方密集组中的一部分记录。这样,您将避免我上面提到的问题。此外,线性回归倾向于在每个特征的平均值附近表现更好。拥有许多具有低方差的记录将使该回归的执行效果更好。

下一次,我建议在Data Science Stack ExchangeStatistics Stack Exchange中问这类问题。祝你好运!