机器学习2——贝叶斯理论下
高斯分布下的判别函数
我们使用高斯分布建模每个类别的特征分布。高斯分布不仅仅是由“均值”控制位置,还由“协方差矩阵”控制形状和方向。
- 对于类别 ω i \omega_i ωi ,我们假设:
P ( x ∣ ω i ) = N ( μ i , Σ i ) P\left(\mathbf{x} \mid \omega_i\right)=\mathcal{N}\left(\boldsymbol{\mu}_i, \boldsymbol{\Sigma}_i\right) P(x∣ωi)=N(μi,Σi)
-
其中 Σ i \boldsymbol{\Sigma}_i Σi 表示该类别在每个维度上的扩展程度(方差),以及不同维度间的相关性(协方差)
-
以二维高斯分布为例:
-
假定类别 i 的协方差矩阵是单位阵的倍数,即 Σ i = σ 2 I \boldsymbol{\Sigma}_i=\sigma^2 \mathbf{I} Σi=σ2I,类别的“等密度线”(投影到平面)是正圆;
-
假定类别 i 的协方差矩阵不是单位阵的倍数,也就是说特征之间并非完全独立,类别的“等密度线”(投影到平面)是椭圆。
-
协方差大的方向上分布更“扁”或“宽”,小的方向上分布更“紧”或“尖”。例如:
- Σ 1 = I \boldsymbol{\Sigma}_1=I Σ1=I ,则类 1 是一个标准圆形分布
- Σ 2 = [ 5 0 0 0.2 ] \boldsymbol{\Sigma}_2=\left[\begin{array}{cc}5 & 0 \\ 0 & 0.2\end{array}\right] Σ2=[5000.2] ,则类 2 是一个长条形,沿 x x x-轴方向很宽,沿 y y y-轴方向很窄
-
-
-
我们选择后验概率较大的类别,所以判别函数:
g i ( x ) = P ( ω i ∣ x ) ( 1 ≤ i ≤ c ) 取对数形式: g i ( x ) = ln P ( ω i ∣ x ) 带入贝叶斯公式: g i ( x ) = ln P ( x ∣ ω 0 ) + ln P ( ω ) \begin{aligned} & g_i(\mathbf{x})=P\left(\omega_i \mid \mathbf{x}\right) \quad(1 \leq i \leq c) \\ & \text{取对数形式:} \\ & g_i(\mathbf{x})=\ln P\left(\omega_i \mid \mathbf{x}\right) \\ & \text{带入贝叶斯公式:} \\ & g_i(\mathbf{x})=\ln P\left(\mathbf{x} \mid \omega_0\right)+\ln P(\omega) \end{aligned} gi(x)=P(ωi∣x)(1≤i≤c)取对数形式:gi(x)=lnP(ωi∣x)带入贝叶斯公式:gi(x)=lnP(x∣ω0)+lnP(ω)假设 P ( x ∣ ω i ) P\left(\mathbf{x} \mid \omega_i\right) P(x∣ωi) 服从多元高斯分布:
p ( x ∣ ω i ) = 1 ( 2 π ) d / 2 ∣ Σ i ∣ 1 / 2 exp [ − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) ] p\left(\mathbf{x} \mid \omega_i\right)=\frac{1}{(2 \pi)^{d / 2}\left|\Sigma_i\right|^{1 / 2}} \exp \left[-\frac{1}{2}\left(\mathbf{x}-\mu_i\right)^T \Sigma_i^{-1}\left(\mathbf{x}-\mu_i\right)\right] p(x∣ωi)=(2π)d/2∣Σi∣1/21exp[−21(x−μi)TΣi−1(x−μi)]
-
d d d :特征维度; μ i \mu_i μi :均值向量。
-
Σ i : \Sigma_i: Σi: 第i类类别的协方差矩阵,对于特征i,j: Σ i j = Cov ( X i , X j ) = E [ ( X i − μ i ) ( X j − μ j ) ] \Sigma_{i j}=\operatorname{Cov}\left(X_i, X_j\right)=\mathbb{E}\left[\left(X_i-\mu_i\right)\left(X_j-\mu_j\right)\right] Σij=Cov(Xi,Xj)=E[(Xi−μi)(Xj−μj)]
-
对角线元素是变量的方差: Σ i i = Var ( X i ) = E [ ( X i − μ i ) 2 ] \Sigma_{i i}=\operatorname{Var}\left(X_i\right)=\mathbb{E}\left[\left(X_i-\mu_i\right)^2\right] Σii=Var(Xi)=E[(Xi−μi)2]
-
非对角线元素 Σ i j \Sigma_{i j} Σij 表示 X i X_i Xi 和 X j X_j Xj 的协方差,反映了它们之间的线性关系:
- Σ i j > 0 \Sigma_{i j}>0 Σij>0 :正相关(一个变量增加,另一个变量也倾向于增加)。
- Σ i j < 0 \Sigma_{i j}<0 Σij<0 :负相关(一个变量增加,另一个变量倾向于减少)。
- Σ i j = 0 \Sigma_{i j}=0 Σij=0 :线性无关 一量之间没有线性关系)。 -
注意,这里的X不是问题中的样本,而是样本的不同维的特征。
-
最终判别函数:
g i ( x ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − d 2 ln 2 π − 1 2 ln ∣ Σ i ∣ + ln P ( ω i ) g_i(\mathbf{x})=-\frac{1}{2}\left(\mathbf{x}-\mu_i\right)^T \Sigma_i^{-1}\left(\mathbf{x}-\mu_i\right)-\frac{d}{2} \ln 2 \pi-\frac{1}{2} \ln \left|\Sigma_i\right|+\ln P\left(\omega_i\right) gi(x)=−21(x−μi)TΣi−1(x−μi)−2dln2π−21ln∣Σi∣+lnP(ωi)-
Case 1:设协方差矩阵为 Σ i = σ 2 I \boldsymbol{\Sigma}_i=\sigma^2 \mathbf{I} Σi=σ2I
即协方差为0,各个特征间完全独立
此时其逆矩阵和行列式分别为:
Σ i − 1 = 1 σ 2 I , ∣ Σ i ∣ = σ 2 d \boldsymbol{\Sigma}_i^{-1} = \frac{1}{\sigma^2} \mathbf{I}, \quad |\boldsymbol{\Sigma}_i| = \sigma^{2d} Σi−1=σ21I,∣Σi∣=σ2d
带入判别函数:
g i ( x ) = − 1 2 ( x − μ i ) T 1 σ 2 I ( x − μ i ) − d 2 ln 2 π − 1 2 ln σ 2 d + ln P ( ω i ) g_i(\mathbf{x}) = -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu}_i)^T \frac{1}{\sigma^2} \mathbf{I} (\mathbf{x} - \boldsymbol{\mu}_i) - \frac{d}{2} \ln 2\pi - \frac{1}{2} \ln \sigma^{2d} + \ln P(\omega_i) gi(x)=−21(x−μi)Tσ21I(x−μi)−2dln2π−21lnσ2d+lnP(ωi)
忽略与 x \mathbf{x} x 无关的项(因为分类时无关项不会影响比较):
g i ( x ) = 1 σ 2 μ i T x + [ − 1 2 σ 2 μ i T μ i + ln P ( ω i ) ] g_i(\mathbf{x}) = \frac{1}{\sigma^2} \boldsymbol{\mu}_i^T \mathbf{x} + \left[-\frac{1}{2\sigma^2} \boldsymbol{\mu}_i^T \boldsymbol{\mu}_i + \ln P(\omega_i)\right] gi(x)=σ21μiTx+[−2σ21μiTμi+lnP(ωi)]
我们可以看出,它是一个线性判别函数:
g i ( x ) = w i T x + w i 0 g_i(\mathbf{x}) = \mathbf{w}_i^T \mathbf{x} + w_{i0} gi(x)=wiTx+wi0
其中:
w i = 1 σ 2 μ i , w i 0 = − 1 2 σ 2 μ i T μ i + ln P ( ω i ) \mathbf{w}_i = \frac{1}{\sigma^2} \boldsymbol{\mu}_i, \quad w_{i0} = -\frac{1}{2\sigma^2} \boldsymbol{\mu}_i^T \boldsymbol{\mu}_i + \ln P(\omega_i) wi=σ21μi,wi0=−2σ21μiTμi+lnP(ωi)
设 x \mathbf{x} x 的分类由判别函数决定,分类决策面由:
g i ( x ) = g j ( x ) g_i(\mathbf{x}) = g_j(\mathbf{x}) gi(x)=gj(x)
即:
w i T x + w i 0 = w j T x + w j 0 \mathbf{w}_i^T \mathbf{x} + w_{i0} = \mathbf{w}_j^T \mathbf{x} + w_{j0} wiTx+wi0=wjTx+wj0
代入 w i , w i 0 \mathbf{w}_i, w_{i0} wi,wi0:
( 1 σ 2 μ i − 1 σ 2 μ j ) T x = − 1 2 σ 2 ( μ i T μ i − μ j T μ j ) + ln P ( ω i ) P ( ω j ) \left(\frac{1}{\sigma^2} \boldsymbol{\mu}_i - \frac{1}{\sigma^2} \boldsymbol{\mu}_j\right)^T \mathbf{x} = -\frac{1}{2\sigma^2} (\boldsymbol{\mu}_i^T \boldsymbol{\mu}_i - \boldsymbol{\mu}_j^T \boldsymbol{\mu}_j) + \ln \frac{P(\omega_i)}{P(\omega_j)} (σ21μi−σ21μj)Tx=−2σ21(μiTμi−μjTμj)+lnP(ωj)P(ωi)决策边界的几何解释
我们可以写成:
w T ( x − x 0 ) = 0 \mathbf{w}^T (\mathbf{x} - \mathbf{x}_0) = 0 wT(x−x0)=0-
其中:
w = μ i − μ j \mathbf{w} = \boldsymbol{\mu}_i - \boldsymbol{\mu}_j w=μi−μjx 0 = 1 2 ( μ i + μ j ) − σ 2 ∥ μ i − μ j ∥ 2 ln P ( ω i ) P ( ω j ) ( μ i − μ j ) \mathbf{x}_0=\frac{1}{2}\left(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j\right)-\frac{\sigma^2}{\left\|\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right\|^2} \ln \frac{P\left(\omega_i\right)}{P\left(\omega_j\right)}\left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right) x0=21(μi+μj)− μi−μj 2σ2lnP(ωj)P(ωi)(μi−μj)
- 如果 P ( ω i ) = P ( ω j ) P(\omega_i) = P(\omega_j) P(ωi)=P(ωj),边界是两个均值的中垂线。
- 如果 P ( ω i ) > P ( ω j ) P(\omega_i) > P(\omega_j) P(ωi)>P(ωj),边界会向较小概率的类别方向偏移。
最小距离分类器
当 P ( ω 1 ) = P ( ω 2 ) P(\omega_1) = P(\omega_2) P(ω1)=P(ω2) 时,决策边界为:
( μ i − μ j ) T x = 1 2 ( μ i T μ i − μ j T μ j ) (\boldsymbol{\mu}_i - \boldsymbol{\mu}_j)^T \mathbf{x} = \frac{1}{2} (\boldsymbol{\mu}_i^T \boldsymbol{\mu}_i - \boldsymbol{\mu}_j^T \boldsymbol{\mu}_j) (μi−μj)Tx=21(μiTμi−μjTμj)
它等价于:
∥ x − μ i ∥ 2 = ∥ x − μ j ∥ 2 \|\mathbf{x} - \boldsymbol{\mu}_i\|^2 = \|\mathbf{x} - \boldsymbol{\mu}_j\|^2 ∥x−μi∥2=∥x−μj∥2
即,样本归属于距离较近的类别,因此该方法也称为最小距离分类器(Minimum Distance Classifier)。 -
-
Case 2: 协方差矩阵相同 ( Σ i = Σ \Sigma_i = \Sigma Σi=Σ) 的情形
假设所有类别的协方差矩阵相同,那么贝叶斯分类器的判别函数变为:
g i ( x ) = − 1 2 ( x − μ i ) T Σ − 1 ( x − μ i ) − d 2 ln 2 π − 1 2 ln ∣ Σ ∣ + ln P ( ω i ) g_i(\mathbf{x}) = -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu}_i)^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}_i) - \frac{d}{2} \ln 2\pi - \frac{1}{2} \ln |\Sigma| + \ln P(\omega_i) gi(x)=−21(x−μi)TΣ−1(x−μi)−2dln2π−21ln∣Σ∣+lnP(ωi)
其中:- μ i \boldsymbol{\mu}_i μi 是类别 i i i 的均值向量,
- Σ \Sigma Σ 是共享的协方差矩阵,
- d d d 是数据的维度。
展开:
g i ( x ) = − 1 2 x T Σ − 1 x + x T Σ − 1 μ i − 1 2 μ i T Σ − 1 μ i + ln P ( ω i ) − d 2 ln 2 π − 1 2 ln ∣ Σ ∣ g_i(\mathbf{x}) = -\frac{1}{2} \mathbf{x}^T \Sigma^{-1} \mathbf{x} + \mathbf{x}^T \Sigma^{-1} \boldsymbol{\mu}_i - \frac{1}{2} \boldsymbol{\mu}_i^T \Sigma^{-1} \boldsymbol{\mu}_i + \ln P(\omega_i) - \frac{d}{2} \ln 2\pi - \frac{1}{2} \ln |\Sigma| gi(x)=−21xTΣ−1x+xTΣ−1μi−21μiTΣ−1μi+lnP(ωi)−2dln2π−21ln∣Σ∣
其中 − 1 2 x T Σ − 1 x -\frac{1}{2} \mathbf{x}^T \Sigma^{-1} \mathbf{x} −21xTΣ−1x对所有类别都一样,不影响比大小,可以省略;再忽略常数项:
g i ( x ) = x T Σ − 1 μ i − 1 2 μ i T Σ − 1 μ i + ln P ( ω i ) g_i(\mathbf{x}) = \mathbf{x}^T \Sigma^{-1} \boldsymbol{\mu}_i - \frac{1}{2} \boldsymbol{\mu}_i^T \Sigma^{-1} \boldsymbol{\mu}_i + \ln P(\omega_i) gi(x)=xTΣ−1μi−21μiTΣ−1μi+lnP(ωi)
为了找到决策边界,我们需要使得 g i ( x ) = g j ( x ) g_i(\mathbf{x}) = g_j(\mathbf{x}) gi(x)=gj(x),即:
x T Σ − 1 μ i − 1 2 μ i T Σ − 1 μ i + ln P ( ω i ) = x T Σ − 1 μ j − 1 2 μ j T Σ − 1 μ j + ln P ( ω j ) \mathbf{x}^T \Sigma^{-1} \boldsymbol{\mu}_i - \frac{1}{2} \boldsymbol{\mu}_i^T \Sigma^{-1} \boldsymbol{\mu}_i + \ln P(\omega_i) = \mathbf{x}^T \Sigma^{-1} \boldsymbol{\mu}_j - \frac{1}{2} \boldsymbol{\mu}_j^T \Sigma^{-1} \boldsymbol{\mu}_j + \ln P(\omega_j) xTΣ−1μi−21μiTΣ−1μi+lnP(ωi)=xTΣ−1μj−21μjTΣ−1μj+lnP(ωj)
整理得:
( x T Σ − 1 ) ( μ i − μ j ) = 1 2 ( μ i T Σ − 1 μ i − μ j T Σ − 1 μ j ) + ln P ( ω i ) P ( ω j ) (\mathbf{x}^T \Sigma^{-1}) (\boldsymbol{\mu}_i - \boldsymbol{\mu}_j) = \frac{1}{2} \left( \boldsymbol{\mu}_i^T \Sigma^{-1} \boldsymbol{\mu}_i - \boldsymbol{\mu}_j^T \Sigma^{-1} \boldsymbol{\mu}_j \right) + \ln \frac{P(\omega_i)}{P(\omega_j)} (xTΣ−1)(μi−μj)=21(μiTΣ−1μi−μjTΣ−1μj)+lnP(ωj)P(ωi)
我们可以写成:
w T ( x − x 0 ) = 0 \mathbf{w}^T (\mathbf{x} - \mathbf{x}_0) = 0 wT(x−x0)=0-
其中:
w = Σ − 1 ( μ i − μ j ) \mathbf{w} = \Sigma^{-1}(\boldsymbol{\mu}_i - \boldsymbol{\mu}_j) w=Σ−1(μi−μj)x 0 = 1 2 ( μ i + μ j ) − ln [ P ( ω i ) / P ( ω j ) ] ( μ i − μ j ) T Σ − 1 ( μ i − μ j ) ( μ i − μ j ) \mathbf{x}_0=\frac{1}{2}\left(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j\right)-\frac{\ln \left[P\left(\omega_i\right) / P\left(\omega_j\right)\right]}{\left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right)^T \Sigma^{-1}\left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right)}\left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right) x0=21(μi+μj)−(μi−μj)TΣ−1(μi−μj)ln[P(ωi)/P(ωj)](μi−μj)
由于我们有相同的协方差矩阵,判别边界是一个超平面(在二维空间中是直线),其法向量由 Σ − 1 ( μ i − μ j ) \Sigma^{-1} (\boldsymbol{\mu}_i - \boldsymbol{\mu}_j) Σ−1(μi−μj) 给出。这个超平面穿过 1 2 ( μ i + μ j ) \frac{1}{2} (\boldsymbol{\mu}_i + \boldsymbol{\mu}_j) 21(μi+μj)(两类均值的中点),并且偏移量由先验概率差和均值的距离决定。
-
Case 3: Σ i ≠ Σ j \Sigma_i \ne \Sigma_j Σi=Σj —— 一般的贝叶斯分类器
从 g i ( x ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − 1 2 ln ∣ Σ i ∣ + ln P ( ω i ) g_i(\mathbf{x})=-\frac{1}{2}\left(\mathbf{x}-\boldsymbol{\mu}_i\right)^T \Sigma_i^{-1}\left(\mathbf{x}-\boldsymbol{\mu}_i\right)-\frac{1}{2} \ln \left|\Sigma_i\right|+\ln P\left(\omega_i\right) gi(x)=−21(x−μi)TΣi−1(x−μi)−21ln∣Σi∣+lnP(ωi)
将其展开整理得到:
g i ( x ) = − 1 2 x T Σ i − 1 x + μ i T Σ i − 1 x − 1 2 μ i T Σ i − 1 μ i − 1 2 ln ∣ Σ i ∣ + ln P ( ω i ) \begin{aligned} g_i(\mathbf{x})= & -\frac{1}{2} \mathbf{x}^T \Sigma_i^{-1} \mathbf{x}+\boldsymbol{\mu}_i^T \Sigma_i^{-1} \mathbf{x}-\frac{1}{2} \boldsymbol{\mu}_i^T \Sigma_i^{-1} \boldsymbol{\mu}_i \\ & -\frac{1}{2} \ln \left|\Sigma_i\right|+\ln P\left(\omega_i\right) \end{aligned} gi(x)=−21xTΣi−1x+μiTΣi−1x−21μiTΣi−1μi−21ln∣Σi∣+lnP(ωi)
这个式子可以重新写成:g i ( x ) = x T W i x + w i T x + w i 0 g_i(\mathbf{x})=\mathbf{x}^T \mathbf{W}_i \mathbf{x}+\mathbf{w}_i^T \mathbf{x}+w_{i 0} gi(x)=xTWix+wiTx+wi0
其中:
- W i = − 1 2 Σ i − 1 \mathbf{W}_i=-\frac{1}{2} \Sigma_i^{-1} Wi=−21Σi−1 是一个对称矩阵
- $\mathbf{w}_i=\Sigma_i^{-1} \boldsymbol{\mu}_i $
- w i 0 = − 1 2 μ i T Σ i − 1 μ i − 1 2 ln ∣ Σ i ∣ + ln P ( ω i ) w_{i 0}=-\frac{1}{2} \boldsymbol{\mu}_i^T \Sigma_i^{-1} \boldsymbol{\mu}_i-\frac{1}{2} \ln \left|\Sigma_i\right|+\ln P\left(\omega_i\right) wi0=−21μiTΣi−1μi−21ln∣Σi∣+lnP(ωi)
-
三种情况的决策边界分析:
-
case1:
判别函数:
g i ( x ) = w i T x + w i 0 , w i = 1 σ 2 μ i g_i(\mathbf{x})=\mathbf{w}_i^T \mathbf{x}+w_{i 0}, \quad \mathbf{w}_i=\frac{1}{\sigma^2} \boldsymbol{\mu}_i gi(x)=wiTx+wi0,wi=σ21μi
决策边界方程:
( μ i − μ j ) T x = 1 2 ( ∥ μ i ∥ 2 − ∥ μ j ∥ 2 ) + σ 2 ln P ( ω i ) P ( ω j ) \left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right)^T \mathbf{x}=\frac{1}{2}\left(\left\|\boldsymbol{\mu}_i\right\|^2-\left\|\boldsymbol{\mu}_j\right\|^2\right)+\sigma^2 \ln \frac{P\left(\omega_i\right)}{P\left(\omega_j\right)} (μi−μj)Tx=21(∥μi∥2− μj 2)+σ2lnP(ωj)P(ωi)
几何解释:- 这是一个线性方程,决策边界是超平面(在二维空间中是直线)。
- 如果先验概率相等 ( P ( ω i ) = P ( ω j ) ) \left(P\left(\omega_i\right)=P\left(\omega_j\right)\right) (P(ωi)=P(ωj)) ,边界是两类均值连线的垂直平分线。
- 如果先验不等,边界会向较小概率的类别方向偏移。
-
case2:
判别函数:
g i ( x ) = x T Σ − 1 μ i − 1 2 μ i T Σ − 1 μ i + ln P ( ω i ) g_i(\mathbf{x})=\mathbf{x}^T \Sigma^{-1} \boldsymbol{\mu}_i-\frac{1}{2} \boldsymbol{\mu}_i^T \Sigma^{-1} \boldsymbol{\mu}_i+\ln P\left(\omega_i\right) gi(x)=xTΣ−1μi−21μiTΣ−1μi+lnP(ωi)
决策边界方程:
( μ i − μ j ) T Σ − 1 x = 1 2 ( μ i T Σ − 1 μ i − μ j T Σ − 1 μ j ) + ln P ( ω i ) P ( ω j ) \left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right)^T \Sigma^{-1} \mathbf{x}=\frac{1}{2}\left(\boldsymbol{\mu}_i^T \Sigma^{-1} \boldsymbol{\mu}_i-\boldsymbol{\mu}_j^T \Sigma^{-1} \boldsymbol{\mu}_j\right)+\ln \frac{P\left(\omega_i\right)}{P\left(\omega_j\right)} (μi−μj)TΣ−1x=21(μiTΣ−1μi−μjTΣ−1μj)+lnP(ωj)P(ωi)
几何解释:- 仍然是一个线性方程,决策边界是超平面(在二维空间中是直线)。
- 但边界的法向量由 Σ − 1 ( μ i − μ j ) \Sigma^{-1}\left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right) Σ−1(μi−μj) 决定,而不再是简单的 μ i − μ j \boldsymbol{\mu}_i-\boldsymbol{\mu}_j μi−μj 。
- 如果 Σ \Sigma Σ 不是对角矩阵,决策边界会旋转,不再垂直于均值连线。
-
case3:
判别函数:
g i ( x ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − 1 2 ln ∣ Σ i ∣ + ln P ( ω i ) g_i(\mathbf{x})=-\frac{1}{2}\left(\mathbf{x}-\boldsymbol{\mu}_i\right)^T \Sigma_i^{-1}\left(\mathbf{x}-\boldsymbol{\mu}_i\right)-\frac{1}{2} \ln \left|\Sigma_i\right|+\ln P\left(\omega_i\right) gi(x)=−21(x−μi)TΣi−1(x−μi)−21ln∣Σi∣+lnP(ωi)
决策边界方程:
− 1 2 x T ( Σ i − 1 − Σ j − 1 ) x + x T ( Σ i − 1 μ i − Σ j − 1 μ j ) + C = 0 常数项 C = − 1 2 μ i T Σ i − 1 μ i + 1 2 μ j T Σ j − 1 μ j − 1 2 ln ∣ Σ i ∣ ∣ Σ j ∣ + ln P ( ω i ) P ( ω j ) -\frac{1}{2} \mathbf{x}^T\left(\Sigma_i^{-1}-\Sigma_j^{-1}\right) \mathbf{x}+\mathbf{x}^T\left(\Sigma_i^{-1} \boldsymbol{\mu}_i-\Sigma_j^{-1} \boldsymbol{\mu}_j\right)+C=0 \\ \text{常数项}C=-\frac{1}{2} \boldsymbol{\mu}_i^T \Sigma_i^{-1} \boldsymbol{\mu}_i+\frac{1}{2} \boldsymbol{\mu}_j^T \Sigma_j^{-1} \boldsymbol{\mu}_j-\frac{1}{2} \ln \frac{\left|\Sigma_i\right|}{\left|\Sigma_j\right|}+\ln \frac{P\left(\omega_i\right)}{P\left(\omega_j\right)} −21xT(Σi−1−Σj−1)x+xT(Σi−1μi−Σj−1μj)+C=0常数项C=−21μiTΣi−1μi+21μjTΣj−1μj−21ln∣Σj∣∣Σi∣+lnP(ωj)P(ωi)
几何解释:- 决策边界是二次曲面(在二维空间中为圆锥曲线:椭圆、双曲线或抛物线)。
- 弯曲程度由 Σ i \Sigma_i Σi和 Σ j \Sigma_j Σj 的差异决定,(如一个为水平椭圆,另一个为垂直椭圆),边界会明显弯曲。
- ln P ( ω i ) P ( ω j ) \ln \frac{P\left(\omega_i\right)}{P\left(\omega_j\right)} lnP(ωj)P(ωi) 控制边界的偏移,向小概率类方向移动。
-
-