当前位置：首页 > news >正文

【笔记】为什么Cholesky Decomposition和Rotation-Scaling Decomposition可以解决协方差矩阵正半定性问题？

news 2025/10/10 0:34:08

在优化协方差矩阵 $\boldsymbol{\Sigma}$ （例如在高斯分布建模中）时，一个关键挑战是确保 $\boldsymbol{\Sigma}$ 始终保持正半定性（positive semi-definite）。如果直接使用梯度下降优化 $\boldsymbol{\Sigma}$ 的元素，矩阵可能在更新过程中变得非正半定，导致无效的高斯分布或数值不稳定性。**Cholesky Decomposition（Cholesky分解）和Rotation-Scaling Decomposition（旋转-缩放分解）**通过提供一种特殊的参数化方式，解决了这个问题，使得 $\boldsymbol{\Sigma}$ 在优化过程中始终满足正半定性要求。以下是对这两种方法的详细解释。

1. Cholesky Decomposition（Cholesky分解）

Cholesky分解将协方差矩阵 $\boldsymbol{\Sigma}$ 表示为一个下三角矩阵 $\boldsymbol{L}$ 与其转置 $\boldsymbol{L}^T$ 的乘积：
$\boldsymbol{\Sigma} = \boldsymbol{L} \boldsymbol{L}^T$
对于一个 2×2 的协方差矩阵， $\boldsymbol{L}$ 可以写为：
$\boldsymbol{L} = \begin{bmatrix} l_1 & 0 \\ l_2 & l_3 \end{bmatrix}$
其中 $l_1, l_2, l_3$ 是可学习的参数。

对于任意矩阵 $\boldsymbol{L}$ ， $\boldsymbol{\Sigma} = \boldsymbol{L} \boldsymbol{L}^T$ 总是正半定的。这是因为对于任意非零向量 $\mathbf{a}$ ，有：
$\mathbf{a}^T \boldsymbol{\Sigma} \mathbf{a} = \mathbf{a}^T \boldsymbol{L} \boldsymbol{L}^T \mathbf{a} = (\boldsymbol{L}^T \mathbf{a})^T (\boldsymbol{L}^T \mathbf{a}) = \|\boldsymbol{L}^T \mathbf{a}\|^2 \geq 0$
这满足正半定矩阵的定义（即 $\mathbf{a}^T \boldsymbol{\Sigma} \mathbf{a} \geq 0$ 对所有 $\mathbf{a}$ 成立）。

如果 $\boldsymbol{L}$ 的对角元素 $l_1 > 0$ 和 $l_3 > 0$ ，则 $\boldsymbol{\Sigma}$ 是正定的（即 $\mathbf{a}^T \boldsymbol{\Sigma} \mathbf{a} > 0$ 对所有 $\mathbf{a} \neq 0$ 成立）。正定性通常是高斯分布所需的更强条件。

与其直接优化 $\boldsymbol{\Sigma}$ 的元素，不如优化 $\boldsymbol{L}$ 的元素 $l_1, l_2, l_3$ 。由于 $\boldsymbol{\Sigma} = \boldsymbol{L} \boldsymbol{L}^T$ 的形式，无论 $l_1, l_2, l_3$ 如何取值， $\boldsymbol{\Sigma}$ 始终是正半定的。

为了保证 $\boldsymbol{\Sigma}$ 是正定的，可以对对角元素 $l_1$ 和 $l_3$ 施加约束。例如，使用参数化：
$l_1 = \exp(\theta_1), \quad l_3 = \exp(\theta_3)$
其中 $\theta_1, \theta_3$ 是无约束的可学习参数。由于指数函数 $\exp(\cdot)$ 始终大于 0，这保证了 $l_1 > 0$ 和 $l_3 > 0$ 。而非对角元素 $l_2$ 可以是任意实数，因为它不直接影响正定性。

Cholesky 分解还有助于提高计算稳定性。例如，计算逆矩阵 $\boldsymbol{\Sigma}^{-1} = (\boldsymbol{L} \boldsymbol{L}^T)^{-1} = \boldsymbol{L}^{-T} \boldsymbol{L}^{-1}$ ，由于 $\boldsymbol{L}$ 是下三角矩阵，其逆可以通过简单的回代法求解，比直接求 $\boldsymbol{\Sigma}^{-1}$ 更稳定。

通过优化 $\boldsymbol{L}$ 的参数而不是 $\boldsymbol{\Sigma}$ 的元素，Cholesky 分解将正半定性约束嵌入到矩阵的构造中，避免了梯度下降可能导致的约束违反问题。

2. Rotation-Scaling Decomposition（旋转-缩放分解）

旋转-缩放分解将 $\boldsymbol{\Sigma}$ 表示为旋转矩阵 $\boldsymbol{R}$ 和缩放矩阵 $\boldsymbol{S}$ 的组合：
$\boldsymbol{\Sigma} = (\boldsymbol{R} \boldsymbol{S}) (\boldsymbol{R} \boldsymbol{S})^T = \boldsymbol{R} \boldsymbol{S} \boldsymbol{S}^T \boldsymbol{R}^T$
对于 2D 情况：
$\boldsymbol{R} = \begin{bmatrix} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{bmatrix}$
由旋转角度 $\theta$ 参数化。

$\boldsymbol{S} = \begin{bmatrix} s_1 & 0 \\ 0 & s_2 \end{bmatrix}$
由缩放因子 $s_1, s_2$ 参数化。

计算可得：
$\boldsymbol{S} \boldsymbol{S}^T = \begin{bmatrix} s_1^2 & 0 \\ 0 & s_2^2 \end{bmatrix}, \quad \boldsymbol{\Sigma} = \boldsymbol{R} \begin{bmatrix} s_1^2 & 0 \\ 0 & s_2^2 \end{bmatrix} \boldsymbol{R}^T$

$\boldsymbol{R}$ 是正交矩阵（ $\boldsymbol{R}^T \boldsymbol{R} = \boldsymbol{I}$ ），而 $\boldsymbol{S} \boldsymbol{S}^T = \begin{bmatrix} s_1^2 & 0 \\ 0 & s_2^2 \end{bmatrix}$ 是对角矩阵，其对角元素 $s_1^2 \geq 0$ 和 $s_2^2 \geq 0$ （因为 $s_1, s_2$ 是实数）。因此， $\boldsymbol{\Sigma}$ 是正半定的。

如果 $s_1 > 0$ 和 $s_2 > 0$ ，则 $\boldsymbol{S} \boldsymbol{S}^T$ 的对角元素严格大于 0， $\boldsymbol{\Sigma}$ 成为正定矩阵。

优化参数 $\theta, s_1, s_2$ 而不是直接优化 $\boldsymbol{\Sigma}$ 。由于 $\boldsymbol{\Sigma}$ 的形式， $\theta$ 可以取任意实数（因为旋转矩阵始终正交），而 $s_1$ 和 $s_2$ 需要保持非负。

为了保证正定性，可以参数化：
$s_1 = \exp(\phi_1), \quad s_2 = \exp(\phi_2)$
其中 $\phi_1, \phi_2$ 是可学习参数，确保 $s_1 > 0$ 和 $s_2 > 0$ 。

计算 $\boldsymbol{\Sigma}^{-1} = \boldsymbol{R} \begin{bmatrix} s_1^{-2} & 0 \\ 0 & s_2^{-2} \end{bmatrix} \boldsymbol{R}^T$ 很简单，只要 $s_1, s_2 \neq 0$ ，计算就稳定且高效。

旋转-缩放分解通过将 $\boldsymbol{\Sigma}$ 分解为旋转（方向）和缩放（大小），将正半定性嵌入到结构中，使得优化过程不会破坏这一性质。

3. 为什么这两种分解能解决问题？

Cholesky 分解通过 $\boldsymbol{L} \boldsymbol{L}^T$ 的形式，天然保证了正半定性。
旋转-缩放分解通过 $\boldsymbol{R} \boldsymbol{S} \boldsymbol{S}^T \boldsymbol{R}^T$ ，利用正交矩阵和非负对角矩阵的性质，同样保证了正半定性。
这种参数化将约束“隐藏”在矩阵构造中，避免了直接优化 $\boldsymbol{\Sigma}$ 时需要显式施加正半定性约束的复杂性。

直接优化 $\boldsymbol{\Sigma}$ 的元素时，梯度下降可能使其偏离正半定区域（例如特征值变为负数），导致高斯分布无效或计算不稳定。而分解方法通过优化中间参数（如 $\boldsymbol{L}$ 或 $\theta, s_1, s_2$ ），确保 $\boldsymbol{\Sigma}$ 始终有效。

对于 2×2 的对称协方差矩阵， $\boldsymbol{\Sigma}$ 有 3 个独立元素：

Cholesky 分解使用 $l_1, l_2, l_3$ （3 个参数）。
旋转-缩放分解使用 $\theta, s_1, s_2$ （3 个参数）。

两种方法都未增加参数数量，同时保持了表达能力。

Cholesky 分解： $\boldsymbol{L}$ 是三角矩阵，求逆和行列式（ $\det(\boldsymbol{\Sigma}) = l_1^2 l_3^2$ ）计算简单。
旋转-缩放分解： $\boldsymbol{\Sigma}$ 的逆和行列式（ $\det(\boldsymbol{\Sigma}) = s_1^2 s_2^2$ ）同样易于计算，避免了 $\boldsymbol{\Sigma}$ 接近奇异时的数值问题。

4. 总结

Cholesky 分解和旋转-缩放分解通过将协方差矩阵 $\boldsymbol{\Sigma}$ 参数化为特定的矩阵乘积形式（ $\boldsymbol{L} \boldsymbol{L}^T$ 或 $\boldsymbol{R} \boldsymbol{S} \boldsymbol{S}^T \boldsymbol{R}^T$ ），确保其在梯度下降优化中始终保持正半定性。这种方法：