当前位置：首页 > news >正文

机器学习 [白板推导]（八）[EM算法]

news 2025/10/1 3:34:19

10. EM期望最大算法（Expectation Maximization）

10.1 算法简介

概率模型求解时，很多时候数据只有观测变量，因为缺少隐变量而无法求得解析解，也很难通过极大似然估计法对完整的模型参数进行估计。

EM算法即为含有隐变量的极大似然估计法（或含有隐变量的极大后验概率估计法）。

举例：

有并不均匀的 $A$ ， $B$ 和 $C$ 三个硬币，正面朝上的概率分别为 $o$ ， $p$ 和 $q$ ，首先抛掷 $A$ ，若正面朝上就抛掷 $B$ ，若反面朝上就抛掷 $C$ ，记录最终的抛掷结果为 $0x_i=1\ \text{or}\ 0$ ，但硬币 $A$ 的抛掷结果作为隐变量未能观测，使得模型参数 $o$ ， $p$ ， $q$ 不能精准求解。
若使用极大似然估计法，则为
$log⁡P(X∣θ)\theta=\underset{\theta}{\arg \max} \ \log P(X|\theta)$ ，忽略了隐变量，但由于 $P(X∣θ)=∫ZP(X,Z∣θ)dZ=∫ZP(X∣Z,θ)⋅P(Z∣θ)dZ=EZ∣θ[P(X∣Z,θ)],(10.1)\begin{aligned} P(X|\theta)&=\int_Z P(X,Z|\theta) dZ\\&=\int_Z P(X|Z,\theta)\cdot P(Z|\theta) dZ\\&=E_{Z|\theta}[P(X|Z,\theta)],\tag{10.1} \end{aligned}$
因此可以使用生成式概率模型的思想，认为 $X$ 是由 $Z$ 生成的，来对模型参数进行求解

EM算法分为两步，E步是对 $P(X∣θ)P(X|\theta)$ 求期望，M步是迭代模型参数 $θ\theta$ 使得期望最大。

10.2 算法收敛性证明

首先直接看公式
$\begin{aligned} \theta^{(t+1)}&=\underset{\theta}{\arg \max} \ E_{z|x,\theta^{(t)}}\left [\log P(x, z|\theta)\right ]\\&=\underset{\theta}{\arg \max} \ \int_z\left [\log P(x, z|\theta)\cdot P(z|x,\theta^{(t)})\right ]dz , \tag{10.2}\end{aligned}$
其中：

$x$ 是样本数据， $z$ 是隐变量， $θ\theta$ 是模型参数；
$log⁡P(x,z∣θ)\log P(x,z|\theta)$ 被称为完备数据概率，因为其包含了 $x$ 和 $z$ 的联合概率分布；
$p(z∣x,θ(t))p(z|x,\theta^{(t)})$ 是后验概率。

这个公式是通过调整参数 $θ\theta$ ，使得 $x, z$ 的完备数据的联合概率密度期望最大，因此被称为期望最大算法，核心思路类似于最大似然估计。

具体来看，参数是逐步更新的，也就是每次给定当前的参数 $θ(t)\theta^{(t)}$ ，调整 $θ\theta$ 使得完备数据概率的期望最大，并将其赋值给 $θ(t+1)\theta^{(t+1)}$ ，即完成了参数更新，直至收敛。

接下来看收敛性证明：

根据极大似然估计思想，若保证 $log⁡P(x∣θ(t))⩽log⁡P(x∣θ(t+1))\log P(x|\theta^{(t)})\leqslant \log P(x|\theta^{(t+1)})$ ，则可以保证EM算法的有效性和收敛性。
已知 $log⁡P(x∣θ)=log⁡P(x,z∣θ)P(z∣x,θ)=log⁡P(x,z∣θ)−log⁡P(z∣x,θ)\log P(x|\theta)=\log \frac{P(x,z|\theta)}{P(z|x,\theta)}=\log P(x,z|\theta)-\log P(z|x,\theta)$ ，将两边对 $z$ 积分：
- 等号左边因为所有变量都与 $z$ 无关，所以积分值为 $log⁡P(x∣θ)⋅1=log⁡P(x∣θ)\log P(x|\theta)\cdot 1=\log P(x|\theta)$ 。
- 等号右边为 $∫zP(z∣x,θ(t))⋅log⁡P(x,z∣θ)dz−∫zP(z∣x,θ(t))⋅log⁡P(z∣x,θ)dz\int_z P(z|x,\theta^{(t)})\cdot \log P(x,z|\theta)dz-\int_z P(z|x,\theta^{(t)})\cdot \log P(z|x,\theta)dz$ ，分别记作 $Q(θ,θ(t))Q(\theta,\theta^{(t)})$ 和 $H(θ,θ(t))H(\theta,\theta^{(t)})$ ，因此等号右边为 $Q(θ,θ(t))−Q(θ,θ(t))Q(\theta,\theta^{(t)})-Q(\theta,\theta^{(t)})$ 。
- 若能保证 $Q(θ(t+1),θ(t))⩾Q(θ,θ(t))Q(\theta^{(t+1)},\theta^{(t)})\geqslant Q(\theta,\theta^{(t)})$ ， $H(θ(t+1),θ(t))⩽H(θ,θ(t))H(\theta^{(t+1)},\theta^{(t)})\leqslant H(\theta,\theta^{(t)})$ ，则可以保证 $log⁡P(x∣θ(t))⩽log⁡P(x∣θ(t+1))\log P(x|\theta^{(t)})\leqslant \log P(x|\theta^{(t+1)})$ ，从而保证期望上升。
  - $Q(θ,θ(t))Q(\theta,\theta^{(t)})$ 即为定义（第一行的公式），因此 $Q(θ(t+1),θ(t))Q(\theta^{(t+1)},\theta^{(t)})$ 即为 $Q(θ,θ(t))Q(\theta,\theta^{(t)})$ 的最大值，因此 $Q(θ(t+1),θ(t))⩾Q(θ,θ(t))Q(\theta^{(t+1)},\theta^{(t)})\geqslant Q(\theta,\theta^{(t)})$ 恒成立。
  - 另外有
    $\begin{aligned} &H(\theta^{(t+1)},\theta^{(t)}) - H(\theta^{(t)},\theta^{(t)})\\ =& \int_z P(z|x,\theta^{(t)})\cdot \log P(z|x,\theta^{(t+1)})dz-\int_z P(z|x,\theta^{(t)})\cdot \log P(z|x,\theta^{(t)})dz\\ =&\int_z P(z|x,\theta^{(t)})\cdot \log \frac{P(z|x,\theta^{(t+1)})dz}{P(z|x,\theta^{(t)})dz}=-KL\left (P(z|x,\theta^{(t)})\ \|\ P(z|x,\theta^{(t)}) \right )\leqslant 0, \tag{10.3} \end{aligned}$
    （或者不从KL散度的角度，也可以用 $E[log⁡x]⩽log⁡E[x]E[\log x ] \leqslant \log E[x]$ 证明），因此 $H(θ(t+1),θ(t))⩽H(θ(t),θ(t))H(\theta^{(t+1)},\theta^{(t)})\leqslant H(\theta^{(t)},\theta^{(t)})$ 得证。

10.3 ELBO+KL散度导出公式

已知 $log⁡P(x∣θ)=log⁡P(x,z∣θ)P(z∣x,θ)=log⁡P(x,z∣θ)−log⁡P(z∣x,θ)\log P(x|\theta)=\log \frac{P(x,z|\theta)}{P(z|x,\theta)}=\log P(x,z|\theta)-\log P(z|x,\theta)$ ，设隐变量 $z$ 的先验概率分布为 $q (z)$ ，则：
$\begin{aligned} \log P(x|\theta)&=\log P(x,z|\theta)-\log P(z|x,\theta)\\&=\log P(x,z|\theta)-\log q(z)-\left [\log P(z|x,\theta) -\log q(z) \right ] \\&=\log \frac{P(x,z|\theta)}{q(z)}-\log \frac{P(z|x,\theta) }{q(z)} , \tag{10.4} \end{aligned}$

将上式两边对 $z$ 积分：

左边 $=∫zlog⁡P(x∣θ)⋅q(z)dz=log⁡P(x∣θ)=\int _z \log P(x|\theta) \cdot q(z) dz=\log P(x|\theta)$ 。
右边 $]=\int_z \log \frac{P(x,z|\theta)}{q(z)} \cdot q(z) dz-\int_z \log \frac{P(z|x,\theta)}{q(z)} \cdot q(z) dz=ELBO-KL\left [\ q(z)\ ||\ P(z|x,\theta) \ \right ]$ ，其中 $ELBO\text{ELBO}$ 为证据下界evidence lower bound；

因此当且仅当 $q(z)==P(z∣x,θ)q(z)==P(z|x,\theta)$ 时， $]=0KL\left [\ q(z)\ ||\ P(z|x,\theta) \ \right ]=0$ ， $log⁡P(x∣θ)=ELBO\log P(x|\theta)=ELBO$ ，此时优化 $ELBO\text{ELBO}$ 即为优化 $log⁡P(x∣θ)\log P(x|\theta)$ ，但这种方法并不保证可以找到 $log⁡P(x∣θ)\log P(x|\theta)$ 的全局最大值；

10.4 Jensen不等式导出公式

根据Jensen不等式， $f(E(x))⩾E[f(x)]f(E(x))\geqslant E[f(x)]$ ，
$\begin{aligned} \log P(x|\theta)&=\log \left [\int _z P(x,z|\theta) dz \right ] =\log \left [\int _z \frac{P(x,z|\theta) }{q(z)}\cdot q(z) dz \right ] \\ &=\log E_{q(z)}\left [ \frac{P(x,z|\theta)}{q(z)} \right ]\geqslant E_{q(z)}\left [ \log\frac{P(x,z|\theta)}{q(z)} \right ] ,\tag{10.5}\end{aligned}$
当且仅当 $P(x,z∣θ)q(z)=C\frac{P(x,z|\theta)}{q(z)}=C$ 时等号成立。

左右变换得 $P(x,z∣θ)C=q(z)\begin{aligned}\frac{P(x,z|\theta)}{C}=q(z) \end{aligned}$ ，两边对 $z$ 积分，得 $1C∫zP(x,z∣θ)dz=1CP(x∣θ)=∫zq(z)dz=1\frac{1}{C}\int_z P(x,z|\theta) dz=\frac{1}{C}P(x|\theta)=\int_z q(z) dz=1$ ，即 $P(x∣θ)=CP(x|\theta)=C$ ，因此 $q(z)=P(x,z∣θ)P(x∣θ)=P(z∣x,θ)q(z)=\frac{P(x,z|\theta)}{P(x|\theta)}=P(z|x,\theta)$ ，与ELBO+KL散度得到相同结论。

10.5 广义EM

根据上面的推导，EM算法的目标函数 $log⁡P(X∣θ)\log P(X|\theta)$ 等效为 $Eq(z)[log⁡P(X,Z∣θ)q(z)]=Eq(z)[log⁡P(X,Z∣θ)]−∫zlog⁡q(z)dz\text{ELBO: }E_{q(z)}[\log \frac{P(X,Z|\theta)}{q(z)}]=E_{q(z)}[\log P(X,Z|\theta)]-\int_z\log q(z)dz$ ，当且仅当 $q(z)==P(z∣x,θ)q(z)==P(z|x,\theta)$ 时， $ELBO\text{ELBO}$ 达到最大值 $ELBO=log⁡P(x∣θ)\text{ELBO}=\log P(x|\theta)$ 。