过拟合、正则化、泛化、归一化

1、什么是过拟合

过拟合现象：通常我们在分类任务过程中都会遇到过拟合这种现象，具体表现为，当我们增加训练集的数据时，测试集的分类效果反而降低，这种现象称为过拟合，或者叫过配。

过拟合的本质：是由于监督学习问题的不稳定，表现为三点

（1）、有限的训练数据不能完全反映出一个模型的好坏，然而我们不得不在这有限的数据集上挑选模型，因此我们完全有可能挑选到训练集上表现好而在测试集上表现很差的模型，也无法知道模型在测试集上的表现。

（2）、如果模型空间（也叫模型复杂度）足够，当我们有很多待选模型的时候，我们挑到和任务数据集对应最好的模型的概率就小得多了。

（3）、如果我们想训练集的效果表现很好，就需要挑选足够多的模型，否则模型空间很小，就很可能不存在能够拟合很好的模型。

2、正则化为什么能够防止过拟合

在机器学习中，数据中往往会存在噪声，当我们用模型去拟合带有噪声的数据时，往往将模型便得更加复杂而正则化和惩罚因子，目的是为了平衡模型复杂度和损失函数之间的关系，从而得到更优的测试结果。为了解释正则化，我准备引入一个公式来阐述正则化的概念。假设目标函数如：

,为了让目标函数值最小。其中，r(d)可以理解为有d的参数进行约束，或者 D 向量有d个维度。

咱们可以令: f() = ,其中f(x)为什么要用多项式的方式模拟，是根据泰勒公式展开式进行，任何函数都可以用多项式的方式趋近，log x,lnx,255);">等等都可以去趋近，而不同的函数曲线其实就是这些基础函数的组合，理所当然也可以用多项式去趋近。在分类过程中，产生过拟合的原因来源f(x),不断增多，同样等数量增多，在强行解释一下，x表示我们输入特征，而W使我们学习的系数。

如何防止过拟合的？参考链接：https://www.zhihu.com/question/20924039/answer/131421690

我们首先想到就是控制N的数量，也就是要N最小化，其实也就是要W向量中项的个数最小化。

为什么我们考虑W而不是x ? 因为你不知道下一个样本想x输入的是什么，无法考虑x。在下一次输入次测试样本的输入，计算(学习)出了W.就是这么个道理。

让W向量中项的个数最小化”这个问题，学过数学的人是不是看到这个问题有点感觉？对，没错，这就是0范数的概念！什么是范数，下文我特意查了资料进行阐述：

r(d) = “让W向量中项的个数最小化” =

所以为了防止过拟合，咱们除了需要前面的相加项最小，用公式=代替，使其最小，我们还需要让 r(d)=最小，所以，为了同时满足两项都最小化，咱们可以求解让和r(d)之和最小，这样不就同时满足两者了吗？如果r(d) 过大，再小也没用；相反r(d)再小，太大也失去了问题的意义。
就是为什么需要有个r(d)项，为什么r(d)能够防止过拟合原因了。

向量范数

0-范式：非0的个数

1-范数：为绝对值之和

，即向量元素绝对值之和，matlab调用函数norm(x,1) 。

2-范数：就是通常意义上的模

，Euclid范数（欧几里得范数，常用计算向量长度），即向量元素绝对值的平方和再开方，matlab调用函数norm(x,2)。

-范数：

，即所有向量元素绝对值中的最大值，matlab调用函数norm(x,inf)。

-范数：

即所有向量元素绝对值中的最小值，matlab调用函数norm(x,-inf)。

p-范数：

，即向量元素绝对值的p次方和的1/p次幂，matlab调用函数norm(x,p)。

L1范数和0范数可以实现稀疏，L1因具有比L0更好的优化求解特性而被广泛应用L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的正则项||W||2最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0，这里是有很大的区别；所以大家比起1范数，更钟爱L2范数

参考链接：https://www.zhihu.com/question/20473040/answer/102907063

3、模型的泛化能力

泛化能力（generalization ability）: 是指机器学习对新鲜样本的适应能力。学习的目的是学到隐含在数据对背后的规律，对具有统一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，改能力也称泛化能力。

通常期望经训练样本训练的网络具有较强的泛化能力，也就是对新输入给出合理响应的能力。应当指出并非训练的次数越多越能得到正确的输入输出映射关系。网络的性能主要用它的泛化能力来衡量。

以我的理解，模型的泛化能力可以类比到程序的健壮性。

怎么提高模型的泛化能力

与数据集无关的方法：

加入正则项
数据中加入噪音，
训练多个模型，用模型融合的方式训练数据

根据数据本身的结构特征，构造一些方法：

特征选取，减少输入参数的数量
特征提取，把多个特征合并为少数几个特征如（PCA），同样为了减少输入参数的个数
根据已知的数据性质，构造新的样本。
选取合适的神经网络，比如图像问题选取CNN，而时序问题选取RNN或者LSTM

4、归一化

softmax解决多分类归一化问题：

在多分类问题，我们通常在模型输出数据之前进行一个softmax处理，因为经过经过一次softmax之后，每进行一次多分类，每个分类都会以概率的形式都显示在一个集合之中，每个类别的概率范围在[0,1],而且所有类别的概率之和是为1的。举个简单例子：如五分类数据[23,12,13,52,0] 经过一次softmax之后，每个类别的可能性就以[0.23,0.12,0.13,0.52,0]形式表示。这就简单介绍了softmax的归一化操作。

当然还有max归一化等其他方法进行归一化处理。对于二分类问题，通常我们使用逻辑回归logistic Regression

softmax的形式：

多类分类问题的目标函数常常选为cross-entropy，即，其中目标类的等于1，其它类的等于0。
在神经网络模型（最简单的logistic regression也可看成没有隐含层的神经网络）中，输出层第个神经元的输入为
神经网络是用error back-propagation训练的，这个过程中有一个关键的量是。
可以算出，同时使用softmax和cross-entropy时，。
这个形式非常简洁，而且与线性回归（采用最小均方误差目标函数）、两类分类（采用cross-entropy目标函数）时的形式一致。

附注:本文参考知乎的答复，如果发现相同的知乎回答，不要介意，可以一起探讨，对于没有在文章打上标记的引用部分，请勿喷。