梯度下降的成本函数曲线实际上是如何计算的,即模型随机选择权重的次数?

问题描述

据我所知,为了计算简单线性回归的权重和偏差,它遵循梯度下降算法,该算法用于寻找成本函数(曲线)的全局最小值。并且该成本函数是通过随机选择一组权重然后计算所有记录的平均误差来计算的。这样我们就得到了成本曲线上的一个点。再次选择另一组权重并计算平均误差。所以所有这些点构成了成本曲线。 我的疑问是,在计算(找到成本函数)成本曲线之前,随机选择多少次权重来获得点数。 提前致谢。

解决方法

梯度下降算法迭代直到收敛。

通过收敛,这意味着找到了凸成本函数的全局最小值。 人们基本上有两种方法来寻找收敛。

  1. 自动收敛测试:如果成本函数在迭代中减少小于 e,则声明收敛,其中 e 是一些小值,例如 10^-3。然而,在实践中很难选择这个阈值。

  2. 针对迭代绘制成本函数:针对迭代绘制成本函数可以让您对收敛有一个很好的了解。它也可以用于调试(成本函数必须在每次迭代中递减)。

例如,在这个图中,我可以推断出我需要近 300-400 次梯度下降迭代。

enter image description here

此外,这使您能够检查不同的学习率 (alpha) 与迭代。