当前位置：首页 > news >正文

变分推断：从优化视角逼近复杂后验分布的强大工具

news 2025/10/2 15:34:54

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

1 变分推断的核心思想

变分推断的核心目标是为一个难以处理的真实后验分布 $p (z ∣ x)$ 找到一个来自简单分布族 $Q$ 的最佳近似分布 $q^*(z)$ 。其基本思想可以概括为：

从采样到优化 🧠：不同于MCMC通过大量采样来渐近地逼近后验，VI通过优化一个衡量分布间相似度的指标（通常是KL散度）来直接找到一个“最好”的近似解。这使其通常在计算上更高效。
变分法 📐：名称中的“变分”源于数学中的变分法（Calculus of Variations），即处理函数泛函优化的数学领域。VI处理的是如何优化一个关于函数的函数（泛函），即KL散度。
权衡（Trade-off） ⚖️：VI将复杂的推断问题转化为一个易于处理的优化问题，用计算速度换取精确度。虽然得到的是后验的近似解，但对于许多现代大规模应用（如深度学习）而言，这种权衡是极其有价值的。

一个生动的比喻是：想象我们要计算一个复杂形状的阴影面积（真实后验）。MCMC方法类似于用无数个小沙子（样本）去填充这个形状，最后通过沙子的分布来估算面积；而VI则是选择一个简单的形状（如椭圆，即变分族），通过不断调整这个椭圆的参数（优化），使其能尽可能紧密地覆盖在复杂形状上。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

20.Gibbs采样：全面解析马尔可夫链蒙特卡洛的核心算法
19.BIG-Bench：大规模语言模型能力的全面评估与挑战
18.MATH-500：大模型数学推理能力评估基准
17.狄利克雷先验：贝叶斯分析中的多面手与它的学术传承
16.GSM8K：评估大模型数学推理能力的关键数据集
15.BIC评分：模型选择的贝叶斯利器与学术传承
14.二型最大似然（Type II Maximum Likelihood）：概述与核心概念
13.半贝叶斯方法：理论基础、算法实现与应用全景
12.Gradient Centralization：一行代码加速训练并提升泛化能力的优化技术
11.Mish激活函数：一种自正则化的非单调神经激活函数
10.Swish激活函数：深度学习中的自适应门控激活机制
9.RMSprop优化算法：原理、应用与演进
8.康威生命游戏：零玩家游戏的元胞自动机奇迹
7.梯度范数：概念、性质、应用与算法实现
6.LSTM：长短期记忆网络的原理、演进与应用
5.古德-杰弗里斯悖论：贝叶斯统计中的先验选择难题
4.BRLESC计算机：美国弹道研究实验室的科学计算先驱
3.磁带记录仪：从磁带到数字的数据存储之旅
2.振荡器：从基础原理到大模型计算的时钟心脏
1.SuperGLUE：自然语言理解的挑战与进步

2 数学框架与推导

变分推断的数学推导优美而深刻，其出发点是对数边缘概率 $log⁡p(x)\log p(x)$ 。

2.1 证据下界（ELBO）

推导的核心是证据下界（Evidence Lower BOund, ELBO）。我们从分解对数边缘概率开始：

$log⁡p(x)=log⁡∫p(x,z)dz\log p(x) = \log \int p(x, z) dz$

引入变分分布 $q (z)$ ：

$log⁡p(x)=log⁡∫q(z)p(x,z)q(z)dz\log p(x) = \log \int q(z) \frac{p(x, z)}{q(z)} dz$

利用Jensen不等式（因为对数函数是凹函数）：

$log⁡p(x)≥∫q(z)log⁡p(x,z)q(z)dz=Eq[log⁡p(x,z)]−Eq[log⁡q(z)]\log p(x) \geq \int q(z) \log \frac{p(x, z)}{q(z)} dz = \mathbb{E}_{q}[\log p(x, z)] - \mathbb{E}_{q}[\log q(z)]$

右边的项即为ELBO，记作 $L(q)\mathcal{L}(q)$ 。因此我们有：

$log⁡p(x)=ELBO(q)+KL(q(z)∣p(z∣x))\log p(x) = \text{ELBO}(q) + \text{KL}(q(z) \ | p(z | x))$

这个分解揭示了VI的本质：

$log⁡p(x)\log p(x)$ 是一个固定值，被称为“证据”（Evidence）。
$KL(q(z)∣p(z∣x))\text{KL}(q(z) \ | p(z | x))$ 是变分分布 $q (z)$ 与真实后验 $p (z ∣ x)$ 之间的KL散度，恒大于等于零。
ELBO 是 $log⁡p(x)\log p(x)$ 的一个下界（Lower Bound）。

最大化ELBO等价于最小化KL散度。因为 $log⁡p(x)\log p(x)$ 是固定的，当我们通过优化使ELBO增大时，KL散度就必然会减小，从而使得 $q (z)$ 越来越接近真实后验 $p (z ∣ x)$ 。

2.2 变分分布族的选择

选择变分分布族 $Q$ 是VI的关键步骤，它代表了优化问题的搜索空间。常见的选择有：

平均场变分族（Mean-Field Family） 🤝：最常用的选择。它假设隐变量 $z$ 的各个分量是相互独立的，即 $\prod_{j=1}^m q_j(z_j)$ 。这使得优化问题可以分解为对每个因子 $q_j$ 交替进行优化，非常高效。
结构化变分族：考虑变量间的依赖关系，比平均场更灵活，但优化也更复杂。
正态分布族：通常假设 $q (z)$ 是一个高斯分布，其均值和方差为待优化参数。
流模型（Normalizing Flows） 🌊：使用一系列可逆变换将简单分布（如高斯）转换为复杂的分布，从而得到更强大、更灵活的近似后验。

3 算法实现：坐标上升与随机梯度下降

如何最大化ELBO？主要有两类算法：

3.1 坐标上升变分推断（CAVI）

这是用于平均场变分推断的经典算法。其核心思想是：固定其他因子 $qj(zj)(i≠j)q_{j}(z_j) (i \neq j)$ ，优化其中一个因子 $q_i(z_i)$ 。其闭合解形式为：

$qj∗(zj)∝exp⁡{E−j[log⁡p(x,z)]}q^*_j(z_j) \propto \exp\{\mathbb{E}_{-j}[\log p(x, z)]\}$

其中 $E−j\mathbb{E}_{-j}$ 表示对除 $z_j$ 外所有其他变量求期望。CAVI算法流程如下：

初始化所有变分因子 $q_j(z_j)$ 。
对于每个因子 $j$ ，根据上述更新公式计算 $q^*_j$ 。
重复步骤2直至ELBO收敛。

CAVI的优点是其简洁性和稳定性，但通常不适用于超大规模的数据集。

3.2 随机梯度下降（SGD）

对于大规模数据或复杂模型（如深度学习），通常采用随机优化。通过蒙特卡洛采样来估计ELBO的梯度，然后使用随机梯度下降（SGD）或其变体（如Adam）来更新变分参数 $ϕ\phi$ 。关键技巧是重参数化（Reparameterization） 🎲，它将随机变量 $\sim q_\phi(z)$ 表达为一个确定性变换 $g(\epsilon, \phi)$ ，其中 $ϵ\epsilon$ 是一个基础随机变量（如标准高斯噪声）。这使得梯度可以更高效地反向传播：

$∇ϕL≈1L∑l=1L∇ϕlog⁡p(x,z(l))−∇ϕlog⁡qϕ(z(l))\nabla_\phi \mathcal{L} \approx \frac{1}{L} \sum_{l=1}^L \nabla_\phi \log p(x, z^{(l)}) - \nabla_\phi \log q_\phi(z^{(l)})$

其中 $z(l)=g(ϵ(l),ϕ),ϵ(l)∼p(ϵ)z^{(l)} = g(\epsilon^{(l)}, \phi), \epsilon^{(l)} \sim p(\epsilon)$ 。这就是变分自编码器（VAE）等模型训练的基石。

4 应用领域

变分推断的应用极其广泛，几乎涵盖了所有需要贝叶斯推理的领域：

主题模型（如LDA） 📚：VI是潜在狄利克雷分配（LDA）主题模型的首选推断算法，用于从大量文档中自动发现主题。
变分自编码器（VAE） 🤖：VAE的训练目标就是ELBO。编码器（Encoder）学习将输入数据 $x$ 映射为变分分布 $qϕ(z∣x)q_\phi(z | x)$ 的参数，解码器（Decoder）则从隐变量 $z$ 重建数据 $x$ 。
贝叶斯神经网络 🧠：将神经网络中的权重视为随机变量，VI用于近似其贝叶斯后验分布，从而量化预测的不确定性。
计算生物学与基因学 🧬：用于分析高通量基因数据，识别基因表达模式。
强化学习 🎮：在部分可观测马尔可夫决策过程（POMDP）中，VI用于推断智能体所处的隐藏状态。