为什么模型通常会从训练期间降低学习率中受益

在ReduceLROnPlateau类的Keras官方文档中（https://keras.io/api/callbacks/reduce_lr_on_plateau/）他们提到

“模型通常受益于降低学习率”

为什么会这样？至少对我来说这是违反直觉的，因为据我所知 - 更高的学习率允许从我当前的位置采取进一步的措施。

谢谢！

在训练 NN 时不应考虑过高或过低的学习率。大的学习率可能会错过全局最小值，并且在极端情况下会导致模型完全偏离最优解。另一方面，小的学习率可能会停留在局部最小值。

ReduceLROnPlateau 的目的是跟踪模型的性能，并在 x 轮数没有改进时降低学习率。直觉是，该模型以当前的学习率接近了次优解决方案，并在全局最小值附近振荡。降低学习率可以使模型采取更小的学习步骤来获得成本函数的最优解。