【人工智能数学基础】多元高斯分布
文章目录
- 一、什么是多元高斯分布?
- 1.1 核心定义:
- 1.2 简单来说:
 
- 二、与普通高斯分布的关键不同(对比总结)
- 三、深入解析多元高斯分布
- 3.1 概率密度函数
- 3.2 核心参数:均值向量和协方差矩阵
 
- 四、可视化理解:协方差矩阵如何影响形状
- 五、多元高斯分布的重要性质与应用
- 5.1 重要性质
- 5.2 主要应用
 
- 总结
 
一、什么是多元高斯分布?
1.1 核心定义:
多元高斯分布(Multivariate Gaussian Distribution)是一元高斯分布在多维空间的自然推广。它描述的不是一个单一的随机变量,而是一组随机变量(一个随机向量)的联合分布,并且这组变量的任何线性组合都服从一元高斯分布。
1.2 简单来说:
- 普通高斯分布:描述一个随机变量(如身高)的分布。
- 多元高斯分布:同时描述多个相关联的随机变量(如身高、体重、年龄)的分布,并完整地刻画了这些变量之间的相关性。
二、与普通高斯分布的关键不同(对比总结)
| 方面 | 普通高斯分布(一元) | 多元高斯分布 | 
|---|---|---|
| 描述对象 | 一个随机变量(标量) | 多个随机变量组成的向量 | 
| 参数 | 2个:均值(μ)和方差(σ²) | 两个集合:均值向量(μ)和协方差矩阵(Σ) | 
| 均值 | 一个数值 μ,表示分布的中心位置 | 一个向量 μ,表示在多维空间中分布的中心点 | 
| 方差/协方差 | 一个数值 σ²,表示一维上的离散度 | 一个矩阵 Σ,对角线是每个变量的方差,非对角线是变量间的协方差 | 
| 分布形状 | 钟形曲线(一维) | 钟形曲面(二维)、超椭球体(高维) | 
| 核心描述能力 | 数据的离散程度 | 数据的离散程度和变量间的相关性 | 
三、深入解析多元高斯分布
3.1 概率密度函数
一元高斯分布 PDF:
 f(x)=1σ2πexp(−12(x−μσ)2)f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right) f(x)=σ2π1exp(−21(σx−μ)2)
 多元高斯分布 PDF (对于 k 维随机向量 X):
 f(x)=1(2π)k/2∣Σ∣1/2exp(−12(x−μ)TΣ−1(x−μ))f(\mathbf{x}) = \frac{1}{(2\pi)^{k/2} |\mathbf{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{x} - \mathbf{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu})\right) f(x)=(2π)k/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))
公式解读:
- x\mathbf{x}x:是一个 k 维向量,表示一个多变量数据点,例如 x=[x身高,x体重]T\mathbf{x} = [x_{\text{身高}}, x_{\text{体重}}]^Tx=[x身高,x体重]T。
- μ\mathbf{\mu}μ:是一个 k 维的均值向量。μ=[μ1,μ2,...,μk]T\mathbf{\mu} = [\mu_1, \mu_2, ..., \mu_k]^Tμ=[μ1,μ2,...,μk]T。它的每个元素是对应变量的均值。
- Σ\mathbf{\Sigma}Σ:是一个 k×k 的协方差矩阵。这是整个分布的核心。
- ∣Σ∣|\mathbf{\Sigma}|∣Σ∣:是协方差矩阵的行列式,衡量了分布的整体“体积”或分散程度。
- Σ−1\mathbf{\Sigma}^{-1}Σ−1:是协方差矩阵的逆矩阵。
- (x−μ)TΣ−1(x−μ)(\mathbf{x} - \mathbf{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu})(x−μ)TΣ−1(x−μ):这个二次型项被称为马哈拉诺比斯距离,是衡量点 x\mathbf{x}x 到中心 μ\mathbf{\mu}μ 的“相关距离”,它考虑了变量间的相关性,比欧氏距离更合理。
3.2 核心参数:均值向量和协方差矩阵
假设我们有一个二维随机向量 X=[X1,X2]T\mathbf{X} = [X_1, X_2]^TX=[X1,X2]T,例如 X1X_1X1是身高,X2X_2X2 是体重。
- 均值向量 μ\mathbf{\mu}μ:
 μ=[μ1μ2]=[E[X1]E[X2]]\mathbf{\mu} = \begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix} = \begin{bmatrix} E[X_1] \\ E[X_2] \end{bmatrix} μ=[μ1μ2]=[E[X1]E[X2]]
 它定义了二维空间中的一个点,是这个钟形曲面的峰值所在。
- 协方差矩阵 ( \mathbf{\Sigma} ):
 Σ=[Var(X1)Cov(X1,X2)Cov(X2,X1)Var(X2)]=[σ12ρσ1σ2ρσ1σ2σ22]\mathbf{\Sigma} = \begin{bmatrix} \text{Var}(X_1) & \text{Cov}(X_1, X_2) \\ \text{Cov}(X_2, X_1) & \text{Var}(X_2) \end{bmatrix} = \begin{bmatrix} \sigma_1^2 & \rho\sigma_1\sigma_2 \\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{bmatrix} Σ=[Var(X1)Cov(X2,X1)Cov(X1,X2)Var(X2)]=[σ12ρσ1σ2ρσ1σ2σ22]
 这里:- σ12,σ22\sigma_1^2, \sigma_2^2σ12,σ22(对角线):分别是身高和体重的方差,决定了各自轴向上的“胖瘦”。
- ρσ1σ2\rho\sigma_1\sigma_2ρσ1σ2(非对角线):是身高和体重的协方差,决定了分布的形状和方向。ρ\rhoρ 是相关系数。
 
四、可视化理解:协方差矩阵如何影响形状
我们以二维为例,假设均值向量为零向量 μ=[0,0]T\mathbf{\mu} = [0, 0]^Tμ=[0,0]T,来看不同协方差矩阵下的分布形态:
- Σ=[1001]\mathbf{\Sigma} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}Σ=[1001] - 解读:方差都为1,协方差为0。
- 形状:一个标准的圆形钟形曲面。两个变量不相关,且离散程度相同。
 
- Σ=[3001]\mathbf{\Sigma} = \begin{bmatrix} 3 & 0 \\ 0 & 1 \end{bmatrix}Σ=[3001] - 解读:X1的方差(3)大于X2的方差(1),协方差为0。
- 形状:一个椭圆形钟形曲面,在X1轴方向上更“扁”,在X2轴方向上更“瘦”。变量不相关。
 
- Σ=[21.51.52]\mathbf{\Sigma} = \begin{bmatrix} 2 & 1.5 \\ 1.5 & 2 \end{bmatrix}Σ=[21.51.52] - 解读:方差相同(2),协方差为正(1.5)。
- 形状:一个倾斜的椭圆形曲面,沿“左上-右下”方向拉伸。表示当X1增加时,X2也倾向于增加(正相关)。
 
- Σ=[2−1.5−1.52]\mathbf{\Sigma} = \begin{bmatrix} 2 & -1.5 \\ -1.5 & 2 \end{bmatrix}Σ=[2−1.5−1.52] - 解读:方差相同(2),协方差为负(-1.5)。
- 形状:一个倾斜的椭圆形曲面,但沿“右上-左下”方向拉伸。表示当X1增加时,X2倾向于减少(负相关)。
 
五、多元高斯分布的重要性质与应用
5.1 重要性质
- 边际分布:多元高斯分布的任意一个子集(例如,只看身高)的分布本身也是一个高斯分布。
- 条件分布:在给定其他变量值的情况下(例如,已知体重=70kg),某个变量(如身高)的分布也是一个高斯分布。
- 线性变换:多元高斯随机向量经过线性变换后,仍然是一个多元高斯分布。
5.2 主要应用
- 多元统计分析:如主成分分析(PCA)、线性判别分析(LDA)等算法都基于多元高斯分布的假设。
- 机器学习: - 高斯混合模型:用于复杂的聚类任务。
- 异常检测:如果一个数据点在多元高斯分布下的概率极低,则可被判定为异常点。
- 生成模型:可以从学到的多元高斯分布中生成新的、类似的数据样本。
 
- 金融工程:用于对多种资产收益率的联合分布进行建模,从而进行资产配置和风险管理。
- 地理统计:用于模拟在空间上相关的数据,如矿藏分布、污染浓度等。
总结
普通高斯分布是理解随机性的基石,它用均值和方差描述了一个变量的不确定性和离散度。
多元高斯分布则是处理相关数据的强大工具,它通过均值向量和协方差矩阵,不仅描述了每个变量自身的特性,更重要的是精确地捕捉了变量之间的线性相关关系。它将相关性作为分布的内在属性,使得我们能以一个统一、优雅的框架来理解和建模多维数据。
