问题描述
- 一个国家的人口
- 代表人数
所以,我的目标是:给定一个国家的人口,我得到了代表的估计数量。问题是使用线性回归可以得到50%的准确性。 可以通过数据分发来激发这种动机吗? 这里是数据集的一些描述符: 这是我的散点图:
我是ML的新手,我想自己做一些事情。如何改善我的模型?我在想:
- 使用非线性回归来更好地拟合数据
- 改善我的数据集(例如删除异常值)
解决方法
您的数据与线性回归不兼容(至少在尝试应用OLS时),因为您在所附图表中看到的是激进的heteroskedasticity。有一些技术可以帮助您获得更好的结果,例如通过可靠的标准误差计算执行线性回归。
由于您是ML的新手,因此可能尝试执行回归以获得更好的效果,因此建议您只关注图表左下方密集组中的一部分记录。这样,您将避免我上面提到的问题。此外,线性回归倾向于在每个特征的平均值附近表现更好。拥有许多具有低方差的记录将使该回归的执行效果更好。
下一次,我建议在Data Science Stack Exchange或Statistics Stack Exchange中问这类问题。祝你好运!