凸优化:鞍点和对偶停止设计准则
概述
- 鞍点
- Lagrange对偶设计最优停止准则
鞍点
对偶问题的一些重要性补充:鞍点。借助鞍点和拉格朗日函数,可以将对偶问题和原问题以一种比较美的对称方式进行表述。
不失一般性,假设仅有不等式约束(因为取得最优点时,等式约束hi(x⋆)=0h_i(x^\star)=0hi(x⋆)=0)
首先注意到
supλ⪰0L(x,λ)=supλ⪰0(f0(x)+∑i=1mλifi(x))={f0(x)fi(x)≤0,i=1,...,m∞其他\sup_{\lambda\succeq0}L(x,\lambda)=\sup_{\lambda\succeq0}\left(f_0(x)+\sum_{i=1}^m\lambda_if_i(x)\right)=\begin{cases}f_0(x)&f_i(x)\le0,i=1,...,m\\\infty&\text{其他}\end{cases}λ⪰0supL(x,λ)=λ⪰0sup(f0(x)+i=1∑mλifi(x))={f0(x)∞fi(x)≤0,i=1,...,m其他
可见原问题的最优值p⋆=infxsupλ⪰0L(x,λ)p^\star=\inf_x\sup_{\lambda\succeq0}L(x,\lambda)p⋆=infxsupλ⪰0L(x,λ),根据前述对偶问题的最优值d⋆=supλ⪰0infxL(x,λ)d^\star=\sup_{\lambda\succeq0}\inf_xL(x,\lambda)d⋆=supλ⪰0infxL(x,λ)。
假设弱对偶性成立,则有:
d⋆=supλ⪰0infxL(x,λ)≤infxsupλ⪰0L(x,λ)=p⋆d^\star=\sup_{\lambda\succeq0}\inf_xL(x,\lambda)\le \inf_x\sup_{\lambda\succeq0}L(x,\lambda)=p^\stard⋆=λ⪰0supxinfL(x,λ)≤xinfλ⪰0supL(x,λ)=p⋆
该不等式又称作\textcolor{red}{极大极小不等式}。强对偶性成立时,上述不等式取得等号,此时称(x⋆,λ⋆)(x^\star,\lambda^\star)(x⋆,λ⋆)为鞍点(几何形状像马鞍的落点),反之亦然,当(x,λ)(x,\lambda)(x,λ)是拉格朗日函数的鞍点,此时(x,λ)(x,\lambda)(x,λ)分别为原问题和对偶问题的最优解,且对偶间隙为0。
综上可见,当强对偶性成立时,原问题的最优解x⋆x^\starx⋆也是L(x,λ⋆,ν⋆)L(x,\lambda^\star,\nu^\star)L(x,λ⋆,ν⋆)的最优解,借此可从Lagrange函数中求得原问题的最优解。具体,当强对偶性成立,对偶最优解(λ⋆,ν⋆)(\lambda^\star,\nu^\star)(λ⋆,ν⋆)已知,可通过下述求得带有约束的目标函数的最优解x⋆x^\starx⋆
minxf0(x)+∑i=1mλi⋆fi(x)+∑i=1pνi⋆hi(x)\mathrm{min}_x\quad f_{0}(x)+\sum_{i=1}^{m}\lambda_{i}^{\star}f_{i}(x)+\sum_{i=1}^{p}\nu_{i}^{\star}h_{i}(x)minxf0(x)+i=1∑mλi⋆fi(x)+i=1∑pνi⋆hi(x)
该优化准则也是前述KKT条件中的一条。
Note: 对偶视角求解带约束的优化问题
可以通过Lagrange函数求原问题的最优解,属于无约束的优化问题,优化起来相对较简单。并且当原优化问题仅有等式约束时,其对偶g(ν)g(\nu)g(ν)肯定是无约束优化问题,同样可以较为容易的求得最优解ν⋆\nu^\starν⋆,带入Lagrange函数中再做一次无约束优化,即可求得最优解x⋆x^\starx⋆。当对偶函数是带约束的优化问题,也可通过对原优化问题做诸如,引入新变量,变换目标函数,引入隐式约束等方式,有可能将变换后的对偶问题变为无约束优化(本质上仍旧是求解KKT条件,当对偶函数易于解析求解出最优拉格朗日乘子时,比较适用于该方法,可对比KKT一节中例题4.6加深理解)对于带约束的优化问题,当直接对偶不好求解时,可考虑例如罚函数,增广拉格朗日函数,log-barrier,复合优化的视角(包括近端梯度下降,ADMM)等,后续会陆续介绍。
可借助Lagrange对偶设计最优停止准则
当最优值p⋆p^\starp⋆未知时,可借助对偶点界定可行点的接近程度。具体,假定xxx和(λ,v)(\lambda,v)(λ,v)是原问题和对偶问题的可行点。根据对偶的性质:
g(λ,v)≤p⋆g(\lambda,v)\le p^\starg(λ,v)≤p⋆
稍作变形可知:
f0(x)−p⋆≤f0(x)−g(λ,v)f_0(x)-p^\star\le f_0(x)-g(\lambda,v)f0(x)−p⋆≤f0(x)−g(λ,v)
记f0(x)−g(λ,v)=ϵf_0(x)-g(\lambda,v)=\epsilonf0(x)−g(λ,v)=ϵ,则上述不等式变成ϵ−\epsilon-ϵ−次优的定义。根据定义该ϵ\epsilonϵ的距离也是原问题和对偶问题的对偶间隙。
当最优对偶间隙等于0,xxx取得最优解时,(λ,v)(\lambda,v)(λ,v)也取得对偶最优解,因此可借助对偶解,设定停止准则。
假定xk,(λk,vk),k=1,2,...x^k,(\lambda^k,v^k),k=1,2,...xk,(λk,vk),k=1,2,...是某算法的一系列迭代值,要求精度为ϵ>0\epsilon>0ϵ>0,那么停止准则为:
f0(xk)−g(λk,vk)≤ϵf_0(x^k)-g(\lambda^k,v^k)\le \epsilonf0(xk)−g(λk,vk)≤ϵ
可以保证算法停止时,是ϵ−\epsilon-ϵ−次优。
Note:
在满足强对偶性时,最优对偶间隙为0,ϵ\epsilonϵ才可以任意小。