数理最优化的敲门砖(第一部分)：最优化条件和KKT条件

概要

第一部分: 最优化条件和KKT条件

第二部分:对偶问题
第三部分:几个基本问题及其之间的关系
第四部分:最优化算法

最优化条件

最基本的有约束条件的最优化问题无非是以下的形式
$\begin{align*} \underset{x}{min} \space &f(x) \\ s.t. \space &h_i(x)=0, \space i=1,...m \\ &g_j(x) \leq 0, j=1,...r \end{align*}$

最优性必要条件（以上问题有最优解的必要条件）如下

定理1：最优性必要条件

$x^*$ 是局部最小解,
$h_i$ 是一次函数， $g_j$ 是凸函数，存在 $x_0$ 使得 $g_j(x_0)<0,h_i(x_0)=0$
$\\\nabla h_i(x)$ 和 $\nabla g_j(x)$ 一次独立
$\\此时存在满足KKT条件的拉格朗日乘数(\lambda^*,\mu^*)$

$\nabla$ 是偏导的意思, 其中KKT条件如下
$\begin{equation} \nabla f(x^*)+\sum_{i=1}^m\lambda _i^* \nabla h_i(x^*)+\sum_{j=1}^r\mu _j^* \nabla g_i(x^*)=0 \end{equation}$
$\begin{equation} h_i(x^*)=0, i=1,...m \end{equation}$
$\begin{equation} g_j(x^*)\leq0, \space \mu _j^*\geq0, \space, \mu _j^*g_j(x^*)=0, j=1,...r \end{equation}$

其中， $\lambda^*,\mu^*$ 被称为拉格朗日乘数， $(x^*,\lambda^*,\mu^*)$ 被称为KKT点。

上述定理，再修改一下条件就会变成充分必要条件：

定理2：最优解的充分必要条件

$f,g_1,...,g_r$ 是可微凸函数， $h_i,i=1,...,m$ 是一次函数

$(x^*,\lambda^*,\mu^*)$ 是
$\begin{align*} \underset{x}{min} \space &f(x) \\ s.t. \space &h_i(x)=0, \space i=1,...m \\ &g_j(x) \leq 0, j=1,...r \end{align*}$

满足条件(1)~(3)KKT点，则 $x^*$ 是全局最小解

最优化条件：例题

$\space \tau |x|+\frac{1}{2}(x-y)^2 \\ s.t. \space x \in R$
其中, $\tau>0$ ， $y$ 是定值

证明这个问题的最优解 $x^*$ 是
$x^*=max\{0,|y|-\tau\}sgn(y)$
其中，
$sgn(y)=\left\{ \begin{align*} 1 , &if \space y \geq0 \\ -1,&if \space y<0 \end{align*} \right.$

在证明之前，需要注意到 $∣ x ∣$ 是不可微的，而我们目前只介绍了可微函数的最优化条件和KKT条件，

咱们还需要补充两个概念次导数(Subderivative)和次微分(Subdifferential)，次导数是一般导数定义上的一个推广

$f$ 若是可微，则对所有的 $y\in V$ ， $V$ 是一个向量空间
$\geq f(x)+<\nabla f(x),y-x>$
总是成立的，这不等式可以理解为 $f (y)$ 的图像落在切线 $f (x) + < \nabla f (x), y - x >$ 之上， $(x, f (x))$ 是切点， $\nabla f (x)$ 是切点位置的导数，<・>是内积运算。

而当 $f$ 不可微的时候，我们就需要引进次导数和次微分的概念。

对所有的 $y\in V$ ，满足
$\geq f(x)+<\eta,y-x>$
的 $\eta \in V$ 被称为 $f$ 在 $x$ 的次导数。而所有满足条件的次导数的集合被称为次微分，我们将使用以下记法：
$\partial f(y)=\{\eta \in V \space | f(x) \geq f(y)+<\eta,x-y>, \forall x \in V\}$
当 $f$ 可微时，这个次微分的定义与微分定义是等价的。

有了次微分的加持，我们就可以导出不可微分问题的KKT条件：

对于一般的凸优化问题
$\begin{align*} \underset{x}{min} \space &f(x) \\ s.t. \space &h_i(x)=0, \space i=1,...m \\ &g_j(x) \leq 0, j=1,...r \end{align*}$
其中，
$f$ :凸函数(不一定可微)， $h_i$ :一次函数， $g_j$ :凸函数(不一定可微)

对于(4)~(7)的不可微分问题的KKT条件，定理2依然成立。

$\begin{equation} \eta+\sum_{i=1}^m\lambda _i^* \nabla h_i(x^*)+\sum_{j=1}^r\mu _j^* \xi_j=0 \end{equation}$
$\begin{equation} h_i(x^*)=0, i=1,...m \end{equation}$
$\begin{equation} g_j(x^*)\leq0, \space \mu _j^*\geq0, \space, \mu _j^*g_j(x^*)=0, j=1,...r \end{equation}$
$\begin{equation} \eta \in \partial f(x^*)，\xi \in \partial g_j(x^*)，j=1,...r \end{equation}$

再回到刚才的问题，我们注意到其是没有约束条件的，即 $h_i=0，g_j=0$ ，因此

$\longrightarrow \eta=0\\ (5)和(6)不需要了\\ (7) \longrightarrow \eta \in \partial f(x^*)$

综上，最优解 $x^*$ 应满足 $0\in\partial f(x^*)$ ，而 $f(x)=\tau |x|+\frac{1}{2}(x-y)^2$
$\partial f(x) = \left\{ \begin{align*} \tau+x-y &，x > 0 \\ -\tau+x-y &，x<0 \\ -\tau[-1,1]+y &， x=0 \end{align*} \right.$
当 $x > 0$ 时， $0=\tau+x-y，\Rightarrow x^*=y-\tau$ ，且因为 $\tau>0$ ，则 $x+\tau>0$ 因此 $y > 0$

当 $x < 0$ 时，同理

当 $x = 0$ 时， $-\tau[-1,1]+y=0$ ，则 $|y|-\tau<0$ ， $x^*=0$ ，得证。

谢谢你的阅读，希望这篇博文能帮到你~

有疑问可联系博主Rane的邮箱rane.z.blog@gmail.com。

机器学习算法算法算法

数理最优化的敲门砖(第一部分)：最优化条件和KKT条件

目录

概要

最优化条件

最优化条件：例题

相关文章