Logistic 回归与 NN 中的 L2 正则化

为了实现逻辑回归的 L2 正则化，我们将 L2 范数添加到基础损失中：

对于多层神经网络，我们做同样的事情，但另外，我们增加了反向传播过程中权重的每个损失权重导数：

问题是：为什么我们不对 NN 做同样的事情？

我猜这与 NN 具有多层的事实有关，但我不明白它是如何以及为什么工作的。

据我所知，基本方法是在经验 rik 最小化问题中给出惩罚，所以也许另一个惩罚来自我不知道的其他理论结果。如果您知道要了解机器学习的理论方面，我强烈推荐您这本书 https://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/understanding-machine-learning-theory-algorithms.pdf。

相关问答