当前位置：首页 > news >正文

凸优化理论-进阶方法

news 2025/8/23 19:43:40

Advanced topics

写在前面，本文主要介绍了凸优化理论中比较进阶的内容，包括坐标下降法，对偶分解，交替乘子法（ADMM），共识ADMM等内容。

Coordinate Descent

坐标下降法，这是一种非常高效且可扩展的一类优化方法，也被称为： coordinatewise minimization

Q1 :一个凸且可微的函数 $f:\mathbb{R}^n \rightarrow \mathbb{R}$ ，如果游一个点在各个坐标轴下都是最小的，那这个点是否是全局最优点？

而这里就可以形式化表达为：

$f(x+\delta e_i) \geq f(x) \text{ for all } \delta,i \Rightarrow f(x) = \min_z f(z)?$
这里的 $e_i$ 表示的为第 i个方向上的单位向量。整体表示为：在任意坐标轴方向移动后的得到的值都要比原始点大。

**A1：**是的，因为满足上述的式子，则满足下述的式子，即各个方向上的偏导数为 0，能推出对应的梯度为 0，根据一阶最优性，因为是凸的，所以一定是全局最优点。
$\nabla f(x) = 0$
Q2：相同条件下，但是对应的 $f$ 为凸的，但是不可微，是否成立？

A2: 不，可以看一下下图的例子，这里虽然沿着x1,x2 的移动方向上均满足这个条件，可以发现沿着对角线的方向上还可以找到更小的全局最优点。因为这里的最优点就要满足sub-gradient 的最优性：
$\in \partial{f(x)}$
在这里插入图片描述
Q3： $g(x)+\sum_{i=1}^n h_i(x_i)$ ,其中g 是凸且光滑的（可微），而 $h_i(x)$ 是凸的（这里的非光滑的部分叫做可分离或者不可微的条件可以分解到各个坐标轴的方向上）

A3: 是的，因为不可微性可以分解到不同的坐标轴上，具体证明过程如下：

首先考虑一个在一个坐标轴的方向进行移动（Fixed x and i )
$f(x+\delta e_i) = g(x+\delta e_i)+\sum_{i \neq j}h_j(x_j)+h_i(x_i+\delta e_i)$

$f(y)-f(x)=g(y)-g(x)+\sum_{i=1}^n[h_i(y_i)-h_i(x_i)] \\ \geq \sum_{i=1}^n[\nabla_ig(x)(y_i-x_i)+h_i(y_i)-h_i(x_i)] \geq 0$

在这里插入图片描述

所以这里定义坐标下降：
$\min_xf(x) \text{ where } f(x) = g(x)+\sum_{i=1}^nh_i(x_i)$
对于这样的的问题，我们可以利用坐标下降法，首先选取一个初始点 $x^{(0)} \in \mathbb{R}^n$ ,
$x_i^{(k)} = \text{argmin}_{x_i} f(x_1^{(k)},x_2^{(k)},\cdots,x_i,x_{i+1}^{(k-1)},\cdots,x_n^{(k-1)})$
for k=1,2,3…

这里需要注意一个点：因为在更新第i 个坐标的时候，1到i-1 的坐标已经更新完了，需要用上。

这里坐标更新的顺序，只要满足是{1,2,3,…,n}的一个排列就行了，就是要循环的更新，不能只更新少数。
也可以一次更新一个块，类似于一次更新{1,2,3,4}一起更新
一次更新一个是必要的，如果全部更新了不能保证收敛

Conrdinate descent in statistics and ML

为什么在机器学习和统计学里要用坐标下降法？

Very simple adn easy to implement
Careful implementations can achieve state-of-the-art
Scalable,e.g.,don’t need to keep full data in memory

对于一个光滑的函数 $f$ ,坐标下降法的迭代过程如下： 坐标梯度下降法
$x_i^{(k)} = x_i^{(k-1)}-t_ki \nabla_if(x_1^{(k)},x_2^{(k)},...,x_i,x_{i+1}^{(k-1)},x_n^{(k-1)}) \ \ i=1,..,n \text{ for } k=1,2,3$
当 $f = g + h$ ，其中 $g$ 为光滑， $h=\sum_{i=1}^nh_i$
$x_i^{(k)} = \text{prox}_{h_i,t_{ki}}(x_i^{(k-1)}-t_k \nabla_if(x_1^{(k)},x_2^{(k)},...,x_i,x_{i+1}^{(k-1)},x_n^{(k-1)}))$

Dual Decompostion

1. Dual ascent(对偶上升法)

$\min_x f(x) \text{ subject to} Ax=b$

首先写出拉格朗日形式：
$L(x,u) = f(x)+u^T(Ax-b)$

$max_u \min_x f(x)+u^T(Ax-b)$

具体解的过程可以写成 :
$x^{(k)} = x^{(k-1)}-t_k \nabla_{x} L(x,u^{{k-1}}) \\ u^{(k)} = u^{(k-1)}+ t_k \nabla_{u} L(x^{(k)},u) \text{ where }\nabla_u L(x^{(k)},u)=Ax^{(k)}-b$
这是一种表示方式，另一种表示方式，原问题是式(10),而对应的对偶问题为：
$max_u g(u)= -f^*(-A^Tu)-b^Tu$
其中对应的 $f^*$ 为 $f$ 的共轭函数，而对偶问题是关于u 的仿射函数（线性的），所以此处为了得到最大值，我要进行梯度上升，首先求救对应的梯度：
$\partial g(u) = Ax-b \text{ where } x \in \text{argmin}_z f(z)+u^TAz$
根据这个式子我们就可以得到：
$x^{(k)} \in \text{argmin}_x f(x)+(u^{(k-1)})^TAx \\ u^{(k)} =u^{(k-1)}+t_k*(Ax^{(k)}-b)$
如果对应的f 为严格凸的，我们就可以表示为：
$x^{(k)} = \text{argmin}_x f(x)+(u^{(k-1)})^TAx \\ u^{(k)} =u^{(k-1)}+t_k*(Ax^{(k)}-b)$

2. 对偶分解

首先说明什么是可分解性：
$\min_x f(x) = \sum_{i=1}^{n}f_i(x_i)$
对于上述述的这类优化问题，我们就可以单独去求解然后再加和，如下式所示：
$\min_x f(x) = \sum_{i=1}^n \min_{x_i}f_i(x_i)$
这类被叫做可分解性。然后再来说明什么是对偶分解：

原问题为：
$\min_x \sum_{i=1}^B f_i(x_i) \text{ subject to } Ax=b$
$x=(x_1,x_2,...,x_B)\in \mathbb{R}^n$ 被分解为B块变量，然后我们把约束条件中的A 也进行分解：
$A=[A_1,....,A_B] \text{ where }A_i \in \mathbb{R}^{m \times n_i}$
那原问题就可以写成了
$\min_x \sum_{i=1}^B f_i(x_i) \\ \text{s.t.} \sum_{i=1}^B A_ix_i = b$
这样原问题的约束条件仍然是耦合在一起的，所以还是不能进行分解，但是转换为拉格朗日问题之后可以发现：
$\max_u \min_x L(x,u) = \sum_{i=1}^B f_i(x_i)+u^T \sum_{i=1}^B A_ix_i-b \\$
对偶上升法第一步：
$x^{(k)} = \text{argmin}_x L(x,u^{(k-1)}) \\ = \text{argmin}_x \sum_{i=1}^B(f_i(x_i)+u^T(A_ix_i-b))$
所以我们可以发现：
$x^{+} \in \text{argmin}_x \sum_{i=1}^B f_i(x_i)+ u^T \sum_{i=1}^B A_ix_i-b \\ x_i^+ \in \text{argmin}_{x_i}f_i(x_i)+ u^T \sum_{i=1}^B A_ix_i-b \\ x_i^{(k)} \in \text{argmin}_{x_i}f_i(x_i)+ (u^{(k-1)})^T \sum_{i=1}^B A_ix_i-b$
第二步更新对偶变量：
$u^{(k)} = u^{(k-1)}+t_k(\sum_{i=1}^B A_ix_i^{(k)}-b)$
这样我们就可以把第一步对原始变量的更新分不到不同的节点上，进行并行计算，然后在中心节点再进行汇总

在这里插入图片描述 ### 3. 增广的拉格朗日

$\min_x f(x)+ \frac{\rho}{2}||Ax-b||^2_2 \\ \text{s.t. } Ax=b$

拉格朗日函数可以写成：
$\frac{\rho}{2}||Ax-b||^2_2 +u^T(Ax-b)$
如果A是满秩矩阵，那原始问题就变为强凸问题，对偶梯度上升可以写为：
$x^{(k)} = \text{argmin}_x f(x)+ \frac{\rho}{2}||Ax-b||^2_2 +(u^{(k-1)})^T(Ax-b) \\ u^{(k)} = u^{(k-1)} + \rho(Ax^{(k)}-b)$
这里发现对偶变量的更新的步长变为了 $\rho$ Why?

因为 $x^{(k)}$ 是最小化拉格朗日函数 $L (x, u)$ ，根据一阶最优条件：
$\in \partial(f(x^{(k)}) +A^T(u^{(k-1)}+\rho(Ax^{(k)}-b)) \\ = \partial f(x^{(k)})+A^Tu^{(k)}$
增广的拉格朗日函数

Advantage: augmented Lagrangian gives better convergence
Disadvantage: lose decomposability

4. ADMM

Alternating direction method of multipliers(交替乘子法)
$\min_{x,z} f(x)+g(z) \\ \text{s.t.} Ax+Bz=c$
写成增广的拉格朗日：
$f(x)+g(z)+\frac{\rho}{2}||Ax+Bz-c||_2^2+u^T(Ax+Bz-c)$
ADMM 的迭代过程：
$x^{(k)} = \text{argmin}_x L(x,z^{(k-1)},u^{(k-1)}) \\ z^{(k)} = \text{argmin}_z L(x^{(k)},z,u^{(k-1)}) \\ u^{(k)} = u^{(k-1)} + \rho (Ax^{(k)}+Bx^{(k)}-c)$

部分方法也进行联合优化：
$x^{(k)},z^{(k)} = \text{argmin}_{x,z} L(x,z,u^{(k-1)})$

收敛性证明：

Residual convergence: $r^{(k)}=Ax^{k}+Bx^{(k)}-c \rightarrow 0$ 满足原始问题的可行域（约束条件）
Objective convergence: $f(x^{(k)})+g(z^{(k)}) \rightarrow f^*+g^*$ ，满足原始问题的目标函数
Dual convergence: $u^{(k)} \rightarrow u^*$ 对偶问题的最优解

Scaled form: $w=u/\rho$ ，这样拉格朗日函数就变为了：
$L_{\rho}(x,z,w) = f(x)+g(z)+\frac{\rho}{2}||Ax+Bz-c+w||_2^2-\frac{\rho}{2}||w||_2^2$
ADMM 的更新过程如下：
$x^{(k)} = \text{argmin}_x f(x)+\frac{\rho}{2}||Ax+Bz^{(k-1)}-c+w^{(k-1)}||_2^2 \\ z^{(k)} = \text{argmin}_z g(z)+\frac{\rho}{2}||Ax^{(k)}+Bz-c+w^{(k-1)}||_2^2 \\ w^{(k)} = w^{(k-1)}+Ax^{k}+Bx^{k}-c$
这样 $w$ 就可以写成如下的形式：
$w^{(k)} = w^{(0)} +\sum_{i=1}^k(Ax^{(i)}+Bx^{(i)}-c)$

Reminder:
$\min_x f(x)+g(z) \Longleftrightarrow \min_{x,z} f(x)+g(z) \text{ s.t. } x-z=0$

5. Consensus ADMM (共识ADMM)

考虑一个问题的形式：
$\min_x \sum_i^Bf_i(x)$
共识ADMM 可以将上述问题转换为：(分布式优化问题)
$\min_{x_1,...,x_B,x}\sum_i^Bf_i(x_i) \quad \text{s.t.}\quad x_i =x,\forall i$
这样就把原问题转变为了一个可分解的ADMM问题，首先写出对应的增广的拉格朗日函数的形式：
$L(x_1,...,x_B,x,w_i) = \sum_i^B(f_i(x_i)+\frac{\rho}{2}||x_i-x+w_i||_2^2+\frac{\rho}{2}\sum_i^B||w_i||_2^2)$
上述的这个问题是可以分解的问题，就可以单独的计算对应的 $x_i$ ,具体的计算过程如下：
$x_i^{(k+1)} = \text{argmin}_{x_i} f_i(x_i)+\frac{\rho}{2}||x_i-x^{(k)}+w_i^{(k)}||_2^2 ,\quad i=1,...,B\\ x^{(k+1)}= \frac{1}{B}\sum_i^B(x_i^{(k+1)}+w_i^{(k)}) \\ w_i^{(k+1)}=w_i^{(k)}+x_i^{(k+1)}-x^{(k+1)}$
其中第二行的式子是通过对上述公式直接求导即可，因为对于 $x$ 来说就是一个二次函数，是凸的，所以可以直接求导=0 即可，过程可以表示为：
$\nabla_xL(x_1^{(k+1)},...,x_B^{(k+1)},x,w_i^{(k)}) = \sum_i^B-\rho(x_i^{(k+1)}-x+w_i^{(k)})=0\\ Bx =\sum_i^B(x^{(k+1)}_i+w_i^{(k)})\\ x = \frac{1}{B}\sum_i^B(x^{(k+1)}_i+w_i^{(k)})$
第三行对应的为scalable 增广拉格朗日函数对应的对偶上升法。然后我们再具体看一下式（43）对应的变量 $x^{(k+1)}$
$x^{(k+1)} = \frac{1}{B} \sum_i^B(x_i^{(k+1)})+ \frac{1}{B}\sum_i^B(w_i^{(k)}) \\ x^{(k+1)} = \bar{x}^{(k+1)}+\bar{w}^{(k)}$
这里我们分析一下为什么每次迭代的过程中，对应的 $\sum_i^B(w_i^{(k)})=0$ :
$Bx^{(k+1)} = B*\frac{1}{B}\sum_i^B(x_i^{(k+1)}+w_i^{(k)}) =\sum_i^B(x_i^{(k+1)}+w_i^{(k)})\\ \sum_i^B w_i^{(k+1)} = \sum_i^B w_i^{(k)} + \sum_i^B x_i^{(k+1)}-Bx^{(k+1)}\\ \text{所以发现了就可以消掉了，所以原式是：}\\ \sum_i^B w_i^{(k+1)} = 0$
所以发现了，在更新的过程中其中对偶变量的均值为 0，所以对应的共识变量的更新就可以写为：
$x^{(k+1)}=\bar{x}^{(k+1)}$
这样的话，就可以把原来的迭代过程转变为：
$x_i^{(k+1)} = \text{argmin}_{x_i} f_i(x_i) + \frac{\rho}{2}||x_i-\bar{x}^{(k)}+w_i^{(k)}||_2^2 \\ w_i^{(k+1)} = w_i^{(k)}+x_i^{(k+1)}+\bar{x}^{(k+1)}$

Intuition:直观上来理解一下ADMM 的过程

整体上，就是最小化 $f_i(x_i)$ 的同时，使用 $\mathcal{l}_2$ 正则化，让每个 $x_i$ 拉到 $\bar{x}$

如果 $x_i >\bar{x}$ 那对应的 $w_i$ 就会增加。

所以下一步的正则项就会把 $x_i$ 拉得离 $\bar{x}$ 更近。