问题描述
为了实现逻辑回归的 L2 正则化,我们将 L2 范数添加到基础损失中:
对于多层神经网络,我们做同样的事情,但另外,我们增加了反向传播过程中权重的每个损失权重导数:
问题是:为什么我们不对 NN 做同样的事情?
我猜这与 NN 具有多层的事实有关,但我不明白它是如何以及为什么工作的。
解决方法
据我所知,基本方法是在经验 rik 最小化问题中给出惩罚,所以也许另一个惩罚来自我不知道的其他理论结果。如果您知道要了解机器学习的理论方面,我强烈推荐您这本书 https://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/understanding-machine-learning-theory-algorithms.pdf。