模型选择-4-贝叶斯统计和正则化

之前为了降低产生过拟合的可能性,我们从样本的所有属性中选取一部分属性集用以训练模型,这里介绍一种防止过拟合的不同的方法—正则化,它将会保留所有属性

之前我们一直是通过求最大似然值确定参数(maximum likelihood (ML)):

上式中的 θ 是基于频率学派(frequentist)的观点对待的,频率学派认为, θ 一个固定不变的常量,只是我们现在还不知道它的值,而我们的目的就是基于统计学原理获得 θ 的近似值。
然而,贝叶斯学派(Bayesian)对于 θ 的观点与频率学派的观点是不同的,它们认为, θ 一个未知的随机变量,因此可以给出关于 θ 分布情况的先验概率 p(θ) ,例如 θ 可能满足高斯分布等等(这是一种假设或者说是统计结果,此时并未考虑我们的训练样本).给定训练样本集 S={(x(i),y(i))}mi=1 , 我们可以求θ的后验概率:

注:
1、显然 θ 一个向量,包含了 θ1,θ2...,θm .
2、 θ1,θ2...,θm 已经是从贝叶斯学派的角度对待,它已经不是一个固定的值,而是“有很多可能值”,例如 θ1 可以是服从正态分布的连续变量。
3、上式中,分母处的积分是对向量 θ 中的元素 θ1,θ2...,θm 积分的简写。是一个高维积分。
4、 p(y(i)|x(i),θ) 依赖于所选择的模型,如果是逻辑回归 p(y(i)|x(i),θ)=hθ(x(i))y(i)(1hθ(x(i)))1y(i) .其中 hθ(x(i))=11+eθTx(i)

如果新来一个样例特征为 x,那么为了预测 y。我们可以使用下面的公式:

p(θ|S) 由前面的公式得到。假若我们要求期望值的话,那么套用求期望的公式即可:

注:
大多数时候我们只需求使得 p(y|x,S) 中最大的 y 即可(在 y 是离散值的情况下)。这次求解 p(y|x,S) 与之前的方式不同,以前是先求 θ ,然后直接预测,这次是对所有可能的 θ 作积分。

在频率学派中最大似然估计没有将 θ 视作 y 的估计参数,认为 θ 一个常数,只是未知其值而已,比如我们经常使用常数 c 作为 y=2x+c 的后缀一样。因此对于 p(y(i)|x(i);θ) 中的 θ ,对极大似然估计求导后,可以求出一个确定的值 θ
而贝叶斯估计将 θ 视为随机变量, θ 的值满足一定的分布,不是固定值,我们无法通过计算获得其值,只能在预测时计算积分。
然而在上述贝叶斯估计方法中, 虽然公式合理优美,但后验概率 p(θ|S) 很难计算,看其公式知道计算分母时需要在所有的 θ 上作积分,然而对于一个高维的 θ 来说,枚举其所有的可能性太难了。

因此,为了近似的代替 θ 的后验概率分布,我们一般使用中单点估计代替,这种方法称为最大
后验概率估计(MAP (maximuma posteriori) estimate ):

可以看出,这与我们之前的最大似然值公式很相似,只是后面多了一个关于 θ 的先验概率。
一般情况下我们认为 θN(0,τ2I) .
其实我觉得 p(θ) 可以理解为权重,对于一些噪音属性 p(θ) 小,权重小。。。不知可否。

相关文章

正则替换html代码中img标签的src值在开发富文本信息在移动端...
正则表达式
AWK是一种处理文本文件的语言,是一个强大的文件分析工具。它...
正则表达式是特殊的字符序列,利用事先定义好的特定字符以及...
Python界一名小学生,热心分享编程学习。
收集整理每周优质开发者内容,包括、、等方面。每周五定期发...