高斯分布的贝叶斯参数估计(Bayesian estimation)
贝叶斯参数估计:高斯情况
对高斯正态密度函数的情况,用贝叶斯估计方法来计算 θ{\boldsymbol \theta}θ 的后验概率密度函数 p(θ∣X)p({\boldsymbol \theta} \mid {\mathcal X})p(θ∣X) 和设计分类器所需的概率密度函数 p(x∣X)p({\boldsymbol x} \mid {\mathcal X})p(x∣X)ⓐ 。
ⓐ 注意这里的 p(x∣X)p(x \mid {\mathcal X})p(x∣X) 实际上为 p(x∣ω,X)p(x \mid \omega, {\mathcal X})p(x∣ω,X)。
单变量情况:p(μ∣X)p(\mu \mid {\mathcal X})p(μ∣X)
给定一个数据集 X={x1,x2,⋯ ,xn}{\mathcal X} = \{x_1, x_2, \cdots, x_n\}X={x1,x2,⋯,xn},它被解释为:有 nnn 个随机变量 X1,X2,⋯ ,XnX_1, X_2, \cdots, X_nX1,X2,⋯,Xn,它们是 i.i.d. 的,并且 xix_ixi 是从 XiX_iXi 中抽样得到的。
如果假设 XiX_iXi 是正态分布的,那么这些随机变量将服从相同的正态分布 N(μ,σ2)N(\mu, \sigma^2)N(μ,σ2)。为了简化问题,假设 σ\sigmaσ 是已知的,只有均值 μ\muμ 未知。
先处理一维的情况,有
p(x∣μ)=N(x;μ,σ2)(26)
p(x \mid \mu) = N(x;\mu, \sigma^2) \tag{26}
p(x∣μ)=N(x;μ,σ2)(26)
其中唯一的未知数是均值 μ\muμ。
由于均值 μ\muμ是一个随机变量,服从某一个已知的分布。假设均值 μ\muμ的先验分布也是正态分布:
p(μ)=N(μ;μ0,σ02)(27)
p(\mu) = N(\mu; \mu_0, \sigma_0^2) \tag{27}
p(μ)=N(μ;μ0,σ02)(27)
其中的 μ0\mu_0μ0 和 σ02\sigma_0^2σ02 都是已知的。不严格地说,μ0\mu_0μ0 代表了对均值 μ\muμ 的最好的先验估计,而 σ02\sigma_0^2σ02 则表示了对这个估计的不确定程度。认为均值 μ\muμ 服从正态分布这一假设能够在数学推导上简化运算(式 (27))。
在选择均值 μ\muμ 的先验概率密度函数以后,能够这样来理解问题:设想从均值 μ\muμ 的分布 p(μ)p(\mu)p(μ) 中选取一个具体的 μ\muμ 值,一旦这个 μ\muμ 值被选定,它成为 μ\muμ 的真实值。由于已经认为 p(x∣θ)p(x \mid {\boldsymbol \theta})p(x∣θ) 是完全已知的,即完全确定了变量 xxx 的概率密度函数。然后,再从变量 xxx 的概率密度函数中,独立地抽取 nnn 个样本 x1,x2,⋯ ,xnx_1, x_2, \cdots, x_nx1,x2,⋯,xn。记 X={x1,x2,⋯ ,xn}{\mathcal X} = \{x_1, x_2, \cdots, x_n\}X={x1,x2,⋯,xn}。只需要估计 μ\muμ ,应用贝叶斯公式,有
p(μ∣X)=p(X∣μ)p(μ)∫p(X∣μ)p(μ) dμ=αp(X∣μ)p(μ)=α∏k=1np(xk∣μ)p(μ)(28) \begin{aligned} p(\mu \mid {\mathcal X}) &= \frac{p({\mathcal X} \mid \mu) p(\mu)}{\int p({\mathcal X} \mid \mu) p(\mu)\, {\rm d}\mu} \\ &= \alpha {p({\mathcal X} \mid \mu) p(\mu)} \\ &= \alpha \prod_{k=1}^{n} p(x_k \mid \mu) p(\mu) \end{aligned}\tag{28} p(μ∣X)=∫p(X∣μ)p(μ)dμp(X∣μ)p(μ)=αp(X∣μ)p(μ)=αk=1∏np(xk∣μ)p(μ)(28)
其中 α\alphaα 是一个依赖于样本集 X{\mathcal X}X 的归一化系数,这个系数不依赖于 μ\muμ。这一公式说明了训练样本能如何影响对 μ\muμ 值的估计。它把先验概率密度 p(μ)p(\mu)p(μ) 和后验概率密度 p(μ∣X)p(\mu \mid {\mathcal X})p(μ∣X) 联系了起来。
因为 p(xk∣μ)=N(μ,σ2)p(x_k \mid \mu) = N(\mu, \sigma^2)p(xk∣μ)=N(μ,σ2),和 p(μ)=N(μ0,σ02)p(\mu) = N(\mu_0, \sigma_0^2)p(μ)=N(μ0,σ02),有
p(μ∣X)=α∏k=1n12πσexp[−12(xk−μσ)2]⏟p(xk∣μ)⋅12πσ0exp[−12(μ−μ0σ0)2]⏟p(μ)=α′exp[−12(∑k=1n(μ−xkσ)2+(μ−μ0σ0)2)]=α′′exp[−12[(nσ2+1σ02)μ2−2(1σ2∑k=1nxk+μ0σ02)μ]](29) \begin{aligned} p(\mu \mid {\mathcal X}) &= \alpha \prod_{k=1}^{n} \underbrace{\frac{1}{\sqrt{2\pi}\sigma} \exp\left[-\frac{1}{2} \left( \frac{x_k - \mu}{\sigma} \right)^2 \right]}_{p(x_k \mid \mu)} \cdot \underbrace{\frac{1}{\sqrt{2\pi}\sigma_0} \exp\left[-\frac{1}{2} \left( \frac{\mu - \mu_0}{\sigma_0} \right)^2 \right]}_{p(\mu)} \\ &= \alpha' \exp\left[ -\frac{1}{2} \left( \sum_{k=1}^{n} \left( \frac{\mu - x_k}{\sigma} \right)^2 + \left( \frac{\mu - \mu_0}{\sigma_0} \right)^2 \right) \right] \\ &= \alpha'' \exp\left[ -\frac{1}{2} \left[ \left( \frac{n}{\sigma^2} + \frac{1}{\sigma_0^2} \right) \mu^2 - 2 \left( \frac{1}{\sigma^2} \sum_{k=1}^{n} x_k + \frac{\mu_0}{\sigma_0^2} \right) \mu \right] \right] \end{aligned}\tag{29} p(μ∣X)=αk=1∏np(xk∣μ)2πσ1exp[−21(σxk−μ)2]⋅p(μ)2πσ01exp[−21(σ0μ−μ0)2]=α′exp[−21(k=1∑n(σμ−xk)2+(σ0μ−μ0)2)]=α′′exp[−21[(σ2n+σ021)μ2−2(σ21k=1∑nxk+σ02μ0)μ]](29)
式中的不依赖于 μ\muμ 的那些因子都归入系数 α,α′,α′′\alpha, \alpha', \alpha''α,α′,α′′ 中。这样,发现 p(μ∣X)p(\mu \mid {\mathcal X})p(μ∣X) 是一个指数函数,其中的指数部分为 μ\muμ 的二次型。即,p(μ∣X)p(\mu \mid {\mathcal X})p(μ∣X) 实质上还是一个正态分布。因为这一事实对任意大小的样本集均成立,因此 p(μ∣X)p(\mu \mid {\mathcal X})p(μ∣X) 在样本个数 nnn 增加时仍保持正态分布。
当先验是正态分布,似然也是正态分布时,后验仍是正态分布。
p(μ∣X)p(\mu \mid {\mathcal X})p(μ∣X)和p(μ)p(\mu)p(μ)属于同类分布,称为共轭(conjugate)分布。
如果写成下面的形式:
p(μ∣X)=N(μn,σn2)
p(\mu \mid {\mathcal X}) = N(\mu_n, \sigma_n^2)
p(μ∣X)=N(μn,σn2)
即
p(μ∣X)=12πσnexp[−12(μ−μnσn)2](30) p(\mu \mid {\mathcal X}) = \frac{1}{\sqrt{2\pi} \sigma_n} \exp\left[ -\frac{1}{2} \left( \frac{\mu - \mu_n}{\sigma_n} \right)^2 \right] \tag{30} p(μ∣X)=2πσn1exp[−21(σnμ−μn)2](30)
那么对式 (29) 和式 (30) 应用对应项相等的原则,可以求得 μn\mu_nμn 和 σn2\sigma_n^2σn2:
1σn2=nσ2+1σ02(31) \frac{1}{\sigma_n^2} = \frac{n}{\sigma^2} + \frac{1}{\sigma_0^2} \tag{31} σn21=σ2n+σ021(31)
和
μnσn2=nσ2μ^ML+μ0σ02(32) \frac{\mu_n}{\sigma_n^2} = \frac{n}{\sigma^2} \hat{\mu}_{\text {ML}} + \frac{\mu_0}{\sigma_0^2} \tag{32} σn2μn=σ2nμ^ML+σ02μ0(32)
其中,μ^ML\hat{\mu}_{\text {ML}}μ^ML 是样本均值:
μ^ML=1n∑k=1nxk(33) \hat{\mu}_{\text {ML}} = \frac{1}{n} \sum_{k=1}^{n} x_k \tag{33} μ^ML=n1k=1∑nxk(33)
式 (31) 给出了后验方差 σn2\sigma_n^2σn2 的表达式,表示后验分布的不确定性是先验不确定性和数据不确定性的调和平均。
式 (32) 表明后验均值 μn\mu_nμn 是先验均值 μ0\mu_0μ0 与样本均值 μ^ML\hat{\mu}_{\text {ML}}μ^ML 的加权平均,权重由各自的方差的倒数决定。
进一步求解 μn\mu_nμn 和 σn2\sigma_n^2σn2,得到
μn=(σ02σ02+σ2/n)μ^ML+σ2/nσ02+σ2/nμ0(34) \mu_n = \left( \frac{\sigma_0^2}{\sigma_0^2 + \sigma^2/n} \right) \hat{\mu}_{\text {ML}} + \frac{\sigma^2/n}{\sigma_0^2 + \sigma^2/n} \mu_0 \tag{34} μn=(σ02+σ2/nσ02)μ^ML+σ02+σ2/nσ2/nμ0(34)
和
σn2=σ02σ2/nσ02+σ2/n(35) \sigma_n^2 = \frac{\sigma_0^2 \sigma^2/n}{\sigma_0^2 + \sigma^2/n} \tag{35} σn2=σ02+σ2/nσ02σ2/n(35)
上述方程显示了先验知识和样本观测数据结合,形成后验密度 p(μ∣X)p(\mu \mid {\mathcal X})p(μ∣X) 的。总的说来,μn\mu_nμn 代表了在观察到 nnn 个样本后,对 μ\muμ 的真实值的最好的估计,而 σn2\sigma_n^2σn2 反映了对这个估计的不确定程度。
- 式 (34):后验均值 μn\mu_nμn 是样本均值 μ^ML\hat{\mu}_{\text {ML}}μ^ML 和先验均值 μ0\mu_0μ0 的加权平均。权重由先验方差 σ02\sigma_0^2σ02 和数据方差 σ2\sigma^2σ2 决定。
- 当 nnn 很大时,μn→μ^ML\mu_n \to \hat{\mu}_{\text {ML}}μn→μ^ML(数据主导)。
- 当 nnn 很小时,μn\mu_nμn 更接近 μ0\mu_0μ0(先验主导)。
- 式 (35):后验方差随样本数增加而减小,表明不确定性下降。
- 极限情况下,σn2→0\sigma_n^2 \to 0σn2→0,即后验分布趋于确定性(退化为点估计)。
根据式 (34),知道,在通常情况下,μn\mu_nμn 都是 μ^ML\hat{\mu}_{\text {ML}}μ^ML 和 μ0\mu_0μ0 的线性组合,两者的系数均为非负,并且和为 1。即,μn\mu_nμn 位于 μ^ML\hat{\mu}_{\text {ML}}μ^ML 和 μ0\mu_0μ0 的连线上。如果 σ0≠0\sigma_0 \ne 0σ0=0,则当 nnn 趋于无穷大时,μn\mu_nμn 趋近于样本均值。如果 σ0=0\sigma_0 = 0σ0=0,这是一种退化的情况,即,对先验估计 μ0\mu_0μ0 是如此确信,以至于任何观察样本都无法改变的态度。在另一种极端情况中,如果 σ0≫σ\sigma_0 \gg \sigmaσ0≫σ,即,对先验估计 μ0\mu_0μ0 是如此的不确信,以至于直接把样本均值 μ^ML\hat{\mu}_{\text {ML}}μ^ML 当作了 μ\muμ。总的来说,先验知识和经验数据各自的贡献之间的平衡取决于 σ2\sigma^2σ2 和 σ02\sigma_0^2σ02 的比值,这个比值被称为“决断因子”(dogmatism)。如果该值不是无穷大,那么当获得了足够的样本后,μ0,σ02\mu_0, \sigma_0^2μ0,σ02 的具体数值的精确假定变得无关紧要了,同时 μn\mu_nμn 将收敛于样本均值 μ^ML\hat{\mu}_{\text {ML}}μ^ML。
根据式 (35),将看到,σn2\sigma_n^2σn2 是 nnn 的单调递减函数,并且在 nnn 趋于无穷大时,σn2\sigma_n^2σn2 趋于 σ2/n\sigma^2 / nσ2/n,即,每增加一个观察样本,对 μ\muμ 的估计的不确定程度能减少。当 nnn 增加时,p(μ∣X)p(\mu \mid {\mathcal X})p(μ∣X) 的波形变得越来越尖,并且在 nnn 趋于无穷大时,逼近于狄拉克函数。
单变量情况:p(x∣X)p(x \mid {\mathcal X})p(x∣X)
在均值的后验密度 p(μ∣X)p(\mu \mid {\mathcal X})p(μ∣X) 的基础上,计算类条件概率密度 p(x∣X)p(x \mid {\mathcal X})p(x∣X) 了①。根据式 (25)、(26)、(30),得到
① 注意:这里的 p(x∣X)p(x \mid {\mathcal X})p(x∣X) 实际上是 p(x∣ω,X)p(x \mid \omega, {\mathcal X})p(x∣ω,X),即在类别 ω\omegaω 下给定数据 X{\mathcal X}X 时 xxx 的条件密度。
p(x∣X)=∫p(x∣μ)p(μ∣X) dμ=∫12πσexp[−12(x−μσ)2]⋅12πσnexp[−12(μ−μnσn)2]dμ=12πσσnexp[−12(x−μn)2σ2+σn2]f(σ,σn)(36) \begin{aligned} p(x \mid {\mathcal X}) &= \int p(x \mid \mu) p(\mu \mid {\mathcal X})\, {\rm d}\mu \\ &= \int \frac{1}{\sqrt{2\pi}\sigma} \exp\left[ -\frac{1}{2} \left( \frac{x - \mu}{\sigma} \right)^2 \right] \cdot \frac{1}{\sqrt{2\pi}\sigma_n} \exp\left[ -\frac{1}{2} \left( \frac{\mu - \mu_n}{\sigma_n} \right)^2 \right] {\rm d}\mu \\ &= \frac{1}{2\pi \sigma \sigma_n} \exp\left[ -\frac{1}{2} \frac{(x - \mu_n)^2}{\sigma^2 + \sigma_n^2} \right] f(\sigma, \sigma_n) \end{aligned}\tag{36} p(x∣X)=∫p(x∣μ)p(μ∣X)dμ=∫2πσ1exp[−21(σx−μ)2]⋅2πσn1exp[−21(σnμ−μn)2]dμ=2πσσn1exp[−21σ2+σn2(x−μn)2]f(σ,σn)(36)
其中
f(σ,σn)=∫exp[−12σ2+σn2σ2σn2(μ−σn2x+σ2μnσ2+σn2)2]dμ f(\sigma, \sigma_n) = \int \exp\left[ -\frac{1}{2} \frac{\sigma^2 + \sigma_n^2}{\sigma^2 \sigma_n^2} \left( \mu - \frac{\sigma_n^2 x + \sigma^2 \mu_n}{\sigma^2 + \sigma_n^2} \right)^2 \right] {\rm d}\mu f(σ,σn)=∫exp[−21σ2σn2σ2+σn2(μ−σ2+σn2σn2x+σ2μn)2]dμ
即,作为 xxx 的函数,类条件概率密度函数 p(x∣X)p(x \mid {\mathcal X})p(x∣X) 正比于
exp[−12(x−μn)2σ2+σn2] \exp\left[ -\frac{1}{2} \frac{(x - \mu_n)^2}{\sigma^2 + \sigma_n^2} \right] exp[−21σ2+σn2(x−μn)2]
因此 p(x∣X)p(x \mid {\mathcal X})p(x∣X) 是一个正态分布,均值为 μn\mu_nμn,方差为 σ2+σn2\sigma^2 + \sigma_n^2σ2+σn2,即
p(x∣X)=N(μn,σ2+σn2)(37) p(x \mid {\mathcal X}) = N(\mu_n, \sigma^2 + \sigma_n^2) \tag{37} p(x∣X)=N(μn,σ2+σn2)(37)
即,为了得到类条件概率密度函数 p(x∣X)p(x \mid {\mathcal X})p(x∣X),其参数形式为已知的 p(x∣μ)=N(μ,σ2)p(x \mid \mu) = N(\mu, \sigma^2)p(x∣μ)=N(μ,σ2),只需用 μn\mu_nμn 替换 μ\muμ,用 σ2+σn2\sigma^2 + \sigma_n^2σ2+σn2 替换 σ2\sigma^2σ2 。在效果上,μn\mu_nμn 被当作 μ\muμ 的真实值看待,而这时的方差比起 σ2\sigma^2σ2 来说相对增加了,原因是对均值 μ\muμ 的不确定性增加了对 xxx 的不确定性。
这是最终的结果:p(x∣X)p(x \mid {\mathcal X})p(x∣X) 是类条件概率密度函数 p(x∣ωi,Xi)p(x \mid \omega_i, {\mathcal X}_i)p(x∣ωi,Xi),结合先验概率 P(ωi)P(\omega_i)P(ωi),完全掌握了设计贝叶斯分类器所需的概率知识。在这点上,贝叶斯估计方法与最大似然方法不同,因为最大似然方法只是估计 μ^\hat{\mu}μ^ 和 σ^2\hat{\sigma}^2σ^2 的值,而不是估计 p(x∣X)p(x \mid {\mathcal X})p(x∣X) 的分布。
多变量情况
对于多变量的情况,在协方差矩阵 Σ{\boldsymbol \varSigma}Σ 已知,而均值 μ\boldsymbol{\mu}μ 未知的情况下,并不能把单变量的结果作简单的推广。在这里将大略地描述分析的过程。如同一维的情况,假设:
p(x∣μ)=N(μ,Σ)且p(μ)=N(μ0,Σ0)(38) p({\boldsymbol x} \mid \boldsymbol{\mu}) = N(\boldsymbol{\mu}, \boldsymbol{{\boldsymbol \varSigma}}) \quad \text{且} \quad p(\boldsymbol{\mu}) = N(\boldsymbol{\mu}_0, \boldsymbol{{\boldsymbol \varSigma}}_0) \tag{38} p(x∣μ)=N(μ,Σ)且p(μ)=N(μ0,Σ0)(38)
其中的 Σ\boldsymbol{{\boldsymbol \varSigma}}Σ、Σ0\boldsymbol{{\boldsymbol \varSigma}}_0Σ0、μ0\boldsymbol{\mu}_0μ0 均假设为已知。在观测到样本集 X{\mathcal X}X 中的 nnn 个互相独立的样本 x1,x2,⋯ ,xn{\boldsymbol x}_1, {\boldsymbol x}_2, \cdots, {\boldsymbol x}_nx1,x2,⋯,xn 后,使用贝叶斯公式,得到
p(μ∣X)=α∏k=1np(xk∣μ)p(μ)=α′exp[−12(μ′(nΣ−1+Σ0−1)μ−2μ′(Σ−1∑k=1nxk+Σ0−1μ0))](39) \begin{aligned} p(\boldsymbol{\mu} \mid {\mathcal X}) &= \alpha \prod_{k=1}^{n} p({\boldsymbol x}_k \mid \boldsymbol{\mu}) p(\boldsymbol{\mu}) \\ &= \alpha' \exp\left[ -\frac{1}{2} \left( \boldsymbol{\mu}' \left( n\boldsymbol{{\boldsymbol \varSigma}}^{-1} + \boldsymbol{{\boldsymbol \varSigma}}_0^{-1} \right) \boldsymbol{\mu} - 2\boldsymbol{\mu}' \left( \boldsymbol{{\boldsymbol \varSigma}}^{-1} \sum_{k=1}^{n} {\boldsymbol x}_k + \boldsymbol{{\boldsymbol \varSigma}}_0^{-1} \boldsymbol{\mu}_0 \right) \right) \right] \end{aligned} \tag{39} p(μ∣X)=αk=1∏np(xk∣μ)p(μ)=α′exp[−21(μ′(nΣ−1+Σ0−1)μ−2μ′(Σ−1k=1∑nxk+Σ0−1μ0))](39)
进行配方和变量替换,上式可以简化表示为
p(μ∣X)=α′′exp[−12(μ−μn)′Σn−1(μ−μn)](40) p(\boldsymbol{\mu} \mid {\mathcal X}) = \alpha'' \exp\left[ -\frac{1}{2} (\boldsymbol{\mu} - \boldsymbol{\mu}_n)' \boldsymbol{{\boldsymbol \varSigma}}_n^{-1} (\boldsymbol{\mu} - \boldsymbol{\mu}_n) \right] \tag{40} p(μ∣X)=α′′exp[−21(μ−μn)′Σn−1(μ−μn)](40)
这样,p(μ∣X)=N(μn,Σn)p(\boldsymbol{\mu} \mid {\mathcal X}) = N(\boldsymbol{\mu}_n, \boldsymbol{{\boldsymbol \varSigma}}_n)p(μ∣X)=N(μn,Σn)。对式 (39) 和式 (40) 应用对应项相等的原则,得到分别类似于式 (34)、式 (35) 的等式:
Σn−1=nΣ−1+Σ0−1(41) \boldsymbol{{\boldsymbol \varSigma}}_n^{-1} = n\boldsymbol{{\boldsymbol \varSigma}}^{-1} + \boldsymbol{{\boldsymbol \varSigma}}_0^{-1} \tag{41} Σn−1=nΣ−1+Σ0−1(41)
和
Σn−1μn=nΣ−1μ^ML+Σ0−1μ0(42) \boldsymbol{{\boldsymbol \varSigma}}_n^{-1} \boldsymbol{\mu}_n = n\boldsymbol{{\boldsymbol \varSigma}}^{-1} \hat{\boldsymbol{\mu}}_{\operatorname{ML}} + \boldsymbol{{\boldsymbol \varSigma}}_0^{-1} \boldsymbol{\mu}_0 \tag{42} Σn−1μn=nΣ−1μ^ML+Σ0−1μ0(42)
其中,μ^ML\hat{\boldsymbol{\mu}}_{\operatorname{ML}}μ^ML 是样本均值:
μ^ML=1n∑k=1nxk(43) \hat{\boldsymbol{\mu}}_{\operatorname{ML}} = \frac{1}{n} \sum_{k=1}^{n} {\boldsymbol x}_k \tag{43} μ^ML=n1k=1∑nxk(43)
在对上述的几个方程求解均值 μn\boldsymbol{\mu}_nμn 和协方差矩阵 Σn\boldsymbol{{\boldsymbol \varSigma}}_nΣn 时,需要用到恒等式:
(A−1+B−1)−1=A(A+B)−1B=B(A+B)−1A(44) (\boldsymbol{A}^{-1} + \boldsymbol{B}^{-1})^{-1} = \boldsymbol{A}(\boldsymbol{A} + \boldsymbol{B})^{-1}\boldsymbol{B} = \boldsymbol{B}(\boldsymbol{A} + \boldsymbol{B})^{-1}\boldsymbol{A} \tag{44} (A−1+B−1)−1=A(A+B)−1B=B(A+B)−1A(44)
(其中矩阵 A,B\boldsymbol{A}, \boldsymbol{B}A,B 均为 d×dd \times dd×d 的非奇异矩阵)经过一些推导,进一步解得:
μn=Σ0(Σ0+1nΣ)−1μ^ML+1nΣ(Σ0+1nΣ)−1μ0(45) \boldsymbol{\mu}_n = \boldsymbol{{\boldsymbol \varSigma}}_0 \left( \boldsymbol{{\boldsymbol \varSigma}}_0 + \frac{1}{n} \boldsymbol{{\boldsymbol \varSigma}} \right)^{-1} \hat{\boldsymbol{\mu}}_{\operatorname{ML}} + \frac{1}{n} \boldsymbol{{\boldsymbol \varSigma}} \left( \boldsymbol{{\boldsymbol \varSigma}}_0 + \frac{1}{n} \boldsymbol{{\boldsymbol \varSigma}} \right)^{-1} \boldsymbol{\mu}_0 \tag{45} μn=Σ0(Σ0+n1Σ)−1μ^ML+n1Σ(Σ0+n1Σ)−1μ0(45)
(这个公式很像一维时 μ^ML\hat{\mu}_{\text {ML}}μ^ML 和 μ0\mu_0μ0 的线性组合公式)
和
Σn=Σ0(Σ0+1nΣ)−11nΣ(46) \boldsymbol{{\boldsymbol \varSigma}}_n = \boldsymbol{{\boldsymbol \varSigma}}_0 \left( \boldsymbol{{\boldsymbol \varSigma}}_0 + \frac{1}{n} \boldsymbol{{\boldsymbol \varSigma}} \right)^{-1} \frac{1}{n} \boldsymbol{{\boldsymbol \varSigma}} \tag{46} Σn=Σ0(Σ0+n1Σ)−1n1Σ(46)
如果利用积分:
p(x∣X)=∫p(x∣μ)p(μ∣X) dμ(47) p({\boldsymbol x} \mid {\mathcal X}) = \int p({\boldsymbol x} \mid \boldsymbol{\mu}) p(\boldsymbol{\mu} \mid {\mathcal X})\, d\boldsymbol{\mu} \tag{47} p(x∣X)=∫p(x∣μ)p(μ∣X)dμ(47)
那么可以进一步证明:p(x∣X)=N(μn,Σ+Σn)p({\boldsymbol x} \mid {\mathcal X}) = N(\boldsymbol{\mu}_n, \boldsymbol{{\boldsymbol \varSigma}} + \boldsymbol{{\boldsymbol \varSigma}}_n)p(x∣X)=N(μn,Σ+Σn)(证明过程略)。
然而,这一结果可以用另一种简单的方法来得出:因为 x{\boldsymbol x}x 可以看成两个互相独立的随机变量的和,其中一个变量为服从 p(μ∣X)=N(μn,Σn)p(\boldsymbol{\mu} \mid {\mathcal X}) = N(\boldsymbol{\mu}_n, \boldsymbol{{\boldsymbol \varSigma}}_n)p(μ∣X)=N(μn,Σn) 的变量 μ\boldsymbol{\mu}μ,另一个变量为独立随机变量 y\boldsymbol{y}y,服从分布 p(y)=N(0,Σ)p(\boldsymbol{y}) = N(\boldsymbol{0}, \boldsymbol{{\boldsymbol \varSigma}})p(y)=N(0,Σ)。因为两个独立的正态分布的向量随机变量的和仍然为一个正态分布的向量,其均值为各自均值的和,其协方差矩阵为各自协方差矩阵的和,得到:
p(x∣X)=N(μn,Σ+Σn)(48) p({\boldsymbol x} \mid {\mathcal X}) = N(\boldsymbol{\mu}_n, \boldsymbol{{\boldsymbol \varSigma}} + \boldsymbol{{\boldsymbol \varSigma}}_n) \tag{48} p(x∣X)=N(μn,Σ+Σn)(48)
- 式 (45):后验均值 μn\boldsymbol{\mu}_nμn 是样本均值 μ^ML\hat{\boldsymbol{\mu}}_{\operatorname{ML}}μ^ML 和先验均值 μ0\boldsymbol{\mu}_0μ0 的加权平均。
- 式 (46):后验协方差 Σn\boldsymbol{{\boldsymbol \varSigma}}_nΣn 反映了对均值估计的不确定性,随着样本数 nnn 增加而减小。
- 式 (48):最终的类条件密度 p(x∣X)p({\boldsymbol x} \mid {\mathcal X})p(x∣X) 是正态分布,其均值为 μn\boldsymbol{\mu}_nμn,协方差为原始噪声协方差 Σ\boldsymbol{{\boldsymbol \varSigma}}Σ 加上对 μ\boldsymbol{\mu}μ 的不确定性的贡献 Σn\boldsymbol{{\boldsymbol \varSigma}}_nΣn。