当前位置：首页 > news >正文

凸优化：鞍点和对偶停止设计准则

news 2025/10/28 1:22:30

概述

鞍点
Lagrange对偶设计最优停止准则

鞍点

对偶问题的一些重要性补充：鞍点。借助鞍点和拉格朗日函数，可以将对偶问题和原问题以一种比较美的对称方式进行表述。

不失一般性，假设仅有不等式约束(因为取得最优点时，等式约束 $hi(x⋆)=0h_i(x^\star)=0$ )

首先注意到
$sup⁡λ⪰0L(x,λ)=sup⁡λ⪰0(f0(x)+∑i=1mλifi(x))={f0(x)fi(x)≤0,i=1,...,m∞其他\sup_{\lambda\succeq0}L(x,\lambda)=\sup_{\lambda\succeq0}\left(f_0(x)+\sum_{i=1}^m\lambda_if_i(x)\right)=\begin{cases}f_0(x)&f_i(x)\le0,i=1,...,m\\\infty&\text{其他}\end{cases}$
可见原问题的最优值 $p⋆=inf⁡xsup⁡λ⪰0L(x,λ)p^\star=\inf_x\sup_{\lambda\succeq0}L(x,\lambda)$ ，根据前述对偶问题的最优值 $d⋆=sup⁡λ⪰0inf⁡xL(x,λ)d^\star=\sup_{\lambda\succeq0}\inf_xL(x,\lambda)$ 。

假设弱对偶性成立，则有：
$d⋆=sup⁡λ⪰0inf⁡xL(x,λ)≤inf⁡xsup⁡λ⪰0L(x,λ)=p⋆d^\star=\sup_{\lambda\succeq0}\inf_xL(x,\lambda)\le \inf_x\sup_{\lambda\succeq0}L(x,\lambda)=p^\star$
该不等式又称作\textcolor{red}{极大极小不等式}。强对偶性成立时，上述不等式取得等号，此时称 $(x⋆,λ⋆)(x^\star,\lambda^\star)$ 为鞍点(几何形状像马鞍的落点)，反之亦然，当 $(x,λ)(x,\lambda)$ 是拉格朗日函数的鞍点，此时 $(x,λ)(x,\lambda)$ 分别为原问题和对偶问题的最优解，且对偶间隙为0。

综上可见，当强对偶性成立时，原问题的最优解 $x⋆x^\star$ 也是 $L(x,λ⋆,ν⋆)L(x,\lambda^\star,\nu^\star)$ 的最优解，借此可从Lagrange函数中求得原问题的最优解。具体，当强对偶性成立，对偶最优解 $(λ⋆,ν⋆)(\lambda^\star,\nu^\star)$ 已知，可通过下述求得带有约束的目标函数的最优解 $x⋆x^\star$
$minxf0(x)+∑i=1mλi⋆fi(x)+∑i=1pνi⋆hi(x)\mathrm{min}_x\quad f_{0}(x)+\sum_{i=1}^{m}\lambda_{i}^{\star}f_{i}(x)+\sum_{i=1}^{p}\nu_{i}^{\star}h_{i}(x)$
该优化准则也是前述KKT条件中的一条。

Note: 对偶视角求解带约束的优化问题
可以通过Lagrange函数求原问题的最优解，属于无约束的优化问题，优化起来相对较简单。并且当原优化问题仅有等式约束时，其对偶 $g(ν)g(\nu)$ 肯定是无约束优化问题，同样可以较为容易的求得最优解 $ν⋆\nu^\star$ ，带入Lagrange函数中再做一次无约束优化，即可求得最优解 $x⋆x^\star$ 。当对偶函数是带约束的优化问题，也可通过对原优化问题做诸如，引入新变量，变换目标函数，引入隐式约束等方式，有可能将变换后的对偶问题变为无约束优化(本质上仍旧是求解KKT条件，当对偶函数易于解析求解出最优拉格朗日乘子时，比较适用于该方法，可对比KKT一节中例题4.6加深理解)

对于带约束的优化问题，当直接对偶不好求解时，可考虑例如罚函数，增广拉格朗日函数，log-barrier，复合优化的视角(包括近端梯度下降，ADMM)等，后续会陆续介绍。

可借助Lagrange对偶设计最优停止准则

当最优值 $p⋆p^\star$ 未知时，可借助对偶点界定可行点的接近程度。具体，假定 $x$ 和 $(λ,v)(\lambda,v)$ 是原问题和对偶问题的可行点。根据对偶的性质：
$g(λ,v)≤p⋆g(\lambda,v)\le p^\star$
稍作变形可知：
$f0(x)−p⋆≤f0(x)−g(λ,v)f_0(x)-p^\star\le f_0(x)-g(\lambda,v)$
记 $f0(x)−g(λ,v)=ϵf_0(x)-g(\lambda,v)=\epsilon$ ,则上述不等式变成 $ϵ−\epsilon-$ 次优的定义。根据定义该 $ϵ\epsilon$ 的距离也是原问题和对偶问题的对偶间隙。
当最优对偶间隙等于0， $x$ 取得最优解时， $(λ,v)(\lambda,v)$ 也取得对偶最优解，因此可借助对偶解，设定停止准则。

假定 $xk,(λk,vk),k=1,2,...x^k,(\lambda^k,v^k),k=1,2,...$ 是某算法的一系列迭代值，要求精度为 $ϵ>0\epsilon>0$ ，那么停止准则为：
$f0(xk)−g(λk,vk)≤ϵf_0(x^k)-g(\lambda^k,v^k)\le \epsilon$
可以保证算法停止时，是 $ϵ−\epsilon-$ 次优。