模型选择-4-贝叶斯统计和正则化

之前为了降低产生过拟合的可能性，我们从样本的所有属性中选取一部分属性集用以训练模型，这里介绍一种防止过拟合的不同的方法—正则化，它将会保留所有属性。

之前我们一直是通过求最大似然值确定参数（maximum likelihood (ML)）：

上式中的 $\theta$ 是基于频率学派(frequentist)的观点对待的，频率学派认为， $\theta$ 是一个固定不变的常量，只是我们现在还不知道它的值，而我们的目的就是基于统计学原理获得 $\theta$ 的近似值。
然而，贝叶斯学派(Bayesian)对于 $\theta$ 的观点与频率学派的观点是不同的，它们认为， $\theta$ 是一个未知的随机变量，因此可以给出关于 $\theta$ 分布情况的先验概率 $p(\theta)$ ,例如 $\theta$ 可能满足高斯分布等等（这是一种假设或者说是统计结果，此时并未考虑我们的训练样本）.给定训练样本集 $S=\{(x^{(i)},y^{(i)})\}_{i=1}^m$ ，我们可以求θ的后验概率：

注：
1、显然 $\theta$ 是一个向量，包含了 $\theta_1,\theta_2...,\theta_m$ .
2、 $\theta_1,\theta_m$ 已经是从贝叶斯学派的角度对待，它已经不是一个固定的值，而是“有很多可能值”，例如 $\theta1$ 可以是服从正态分布的连续变量。
3、上式中，分母处的积分是对向量 $\theta$ 中的元素 $\theta_1,\theta_m$ 积分的简写。是一个高维积分。
4、 $p(y^{(i)}|x^{(i)},\theta)$ 依赖于所选择的模型，如果是逻辑回归 $p(y^{(i)}|x^{(i)},\theta)=h_\theta(x^{(i)})^{y^{(i)}}(1-h_\theta(x^{(i)}))^{1-y^{(i)}}$ .其中 $h_\theta(x^{(i)})=\frac{1}{1+e^{-\theta^Tx^{(i)}}}$

如果新来一个样例特征为 x，那么为了预测 y。我们可以使用下面的公式：

$p(θ|S)$ 由前面的公式得到。假若我们要求期望值的话，那么套用求期望的公式即可：

注：
大多数时候我们只需求使得 $p(y|x,S)$ 中最大的 $y$ 即可（在 $y$ 是离散值的情况下）。这次求解 $p(y|x,S)$ 与之前的方式不同，以前是先求 $θ$ ，然后直接预测，这次是对所有可能的 $θ$ 作积分。

在频率学派中最大似然估计没有将 $θ$ 视作 $y$ 的估计参数，认为 $θ$ 是一个常数，只是未知其值而已，比如我们经常使用常数 $c$ 作为 $y=2x+c$ 的后缀一样。因此对于 $p(y{(i)}|x^{(i)}; θ)$ 中的 $\theta$ ,对极大似然估计求导后，可以求出一个确定的值 $θ$ 。
而贝叶斯估计将 $θ$ 视为随机变量， $θ$ 的值满足一定的分布，不是固定值，我们无法通过计算获得其值，只能在预测时计算积分。
然而在上述贝叶斯估计方法中，虽然公式合理优美，但后验概率 $p(θ|S)$ 很难计算，看其公式知道计算分母时需要在所有的 $θ$ 上作积分，然而对于一个高维的 $θ$ 来说，枚举其所有的可能性太难了。

因此，为了近似的代替 $\theta$ 的后验概率分布，我们一般使用中单点估计代替，这种方法称为最大
后验概率估计（MAP (maximuma posteriori) estimate ）：

可以看出，这与我们之前的最大似然值公式很相似，只是后面多了一个关于 $\theta$ 的先验概率。
一般情况下我们认为 $\theta\sim \mathcal N(0,\tau^2 I )$ .
其实我觉得 $p(\theta)$ 可以理解为权重，对于一些噪音属性， p(θ) 小，权重小。。。不知可否。

模型选择-4-贝叶斯统计和正则化

相关文章