当前位置：首页 > news >正文

大连理工大学选修课——机器学习笔记（4）：NBM的原理及应用

news 2025/7/2 2:25:56

NBM的原理及应用

贝叶斯决策及相关

贝叶斯决策

对于给定数据集 $X=[X_1,X_2,\cdots,X_d]^T$
K个类 $C_i,i=1,\cdots,K$ , 满足 $P(C_i)>=0\ and\ \sum P(C_i)=1$
对于数据样本 $x$ 的类别判断为：

$choose\ C_i\ if P(C_i|x)=maxP(C_k|x)$

后验概率的计算

贝叶斯定理公式为

$P（C_i|x)=\frac{p(x|C_i)P(C_i)}{p(x)}$

其中， $p(x),p(x|C_i)$ 可以从训练样本中估算。

理解后验概率

后验概率是一种条件概率，代表随机事件存在关联。

理解贝叶斯决策

总是选择错误风险最小的结果。

一元统计分析及参数估计

常规做法：根据给定的数据集估算这些概率。
存在问题：如果数据集太小，那么从数据集里计算出来的概率偏差将非常严重。

例：观察一个质地均匀的骰子投掷6次的结果：
[1，3，1，5，3，3]
质地均匀的骰子每个点出现的概率应该是1/6
如果根据观察到的数据集去计算每个点的概率，和真实的概率差别会非常大。
即：如果数据集太小，那么从数据集里计算出来的概率偏差将非常严重。
解决方法：
- 不完全依赖给定的数据，结合概率分布模型计算概率。

概率分布模型

概率密度函数(PDF)
- 描述连续随机事件（变量）可能性的函数。
概率质量函数(PMF)
- 描述离散随机事件（变量）可能性的函数。

处理连续随机变量和离散随机变量需要采用不同的概率分布模型

伯努利分布（二值分布）
- 二项式分布
多值分布
- 多项式分布
高斯分布

一维数据的情况

数据仅含一个特征，可能是连续/随机的随机变量。

伯努利分布

伯努利分布是二值分布，用0/1表示。

伯努利分布概率质量函数：

$P（X=x)=\left\{ \begin{matrix} p\qquad &x=1\\ 1-p\qquad &x=0 \end{matrix} \right.$

二项式分布：

$P_k=C_N^kp^k(1-p)^{N-k}$

    做了N次伯努利试验，结果1出现k次的概率。

多值分布

$\begin{align} \sum_{j=1}^{M}p_j=&1\\ f(x_1,x_2,\cdots,x_m|p)=&\prod_{j=1}^{M}p_j^{x_j} \end{align}$

$M$ 是特征取值的状态数， $x_j$ 当且仅当类别x状态j时，取值为1，其余情况取值为0。

多项式分布：满足多值分布的实验，连续做 n 次后，每种类别出现的特定次数组合的概率。

多项式分布的PMF：

$\begin{align} f(X,n,P)=\frac{n!}{\prod_{j=1}^{M}x_j!}\prod_{j=1}^Mp_j^{x_j} \end{align}$

高斯分布

连续随机变量的概率分布，即正态分布

公式包含 $\mu,\sigma$ 两个参数：

$p(x)=\frac{1}{\sqrt{2\pi}}exp(-\frac{(x-\mu)^2}{2\sigma^2})$

参数估计

含义：确定概率分布模型的参数，概率模型确定后，即可计算 $p(x)和p(x|C_i)$ 。

方法：最大似然估计

最大似然估计

似然:在参数 $\theta$ 下,数据样本 $X=\{x_1,x_2,\cdots,x_n\}$ 出现的概率

样本满足独立同分布

$X={\{x^t\}}^N_{t=1}$
x服从参数为 $\theta$ 的概率分布

$x^t\sim p(x|\theta)$
样本的似然(假设样本相互独立):

$l(X|\theta)=p(X|\theta)=\prod_{t=1}^Np(x^t|\theta)$

     对数似然：

$L(X|\theta)=logl(X|\theta)=\sum_{t=1}^Nlog\ p(x^t|\theta)$

通过极值估算概率模型参数 $\theta$
1. 伯努利分布
  
  下面的公式展示了如何通过最大似然估计（MLE）推导伯努利分布的参数p。
  
  伯努利分布的概率质量函数为：
  
  $\begin{align} P(x^t|p)={p^x}^t(1-p)^{1-x^t} \end{align}$
  
  联合似然函数（所有样本的联合概率）：
  
  $\begin{align} L(X|p)=\prod_{t=1}^N{p^x}^t(1-0)^{1-x^t} \end{align}$
  
  为了简化计算，取对数，将连乘转为连加：
  
  $\begin{align} log\ L(X|p)=&\sum_{t=1}^N[x^tlog\ p]+(1-x^t)log(1-p),展开得：\\ =&(\sum_{t=1}^Nx^t)log\ p+(N-\sum_{t=1}^Nx^t)log(1-p) \end{align}\\ 其中，\sum x^t表示总成功次数，N-\sum x^t表示失败次数。$
  
  对p求导，并令导数为0：
  
  $\begin{align} \frac{d}{dp}log\ L(X|p)=\frac{x^t}{p}-\frac{N-\sum x^t}{1-p}=0 \end{align}$
  
  解方程得：
  
  $\hat{p}=\frac{x^t}{N}$
2. 多值分布
  1. 类条件概率的估计
    
    $\hat p(x|C_i)=\prod_{j=1}^M\hat p_{ij}^{x_j}$
    - 符号说明：
      - $C_i$ 表示第i个类别。
      - $\hat p_{ij}$ 表示类别 $C_i$ 下第j个特征的出现概率(MLE估计值)。
      - $x_j$ 是样本的第j个特征值（二值或频数）。
      - $\hat p_{ij}=\frac{N_{ij}}{N_i}$ , $N_{ij}$ 表示 $C_i$ 中第 $j$ 个特征出现的总次数， $N_i$ 表示 $C_i$ 的总样本数。
  2. 先验概率的估计
    
    $\hat p(C_i)=\frac{\sum_lr_l^i}{N}$
    - 符号说明：
      - $r_l^i$ ：第 $l$ 个样本是否属于 $C_i$ （1是，0否）。
      - N：总样本数。
  3. 构建判别式函数
    
    $g_i(x)=log(\hat p^(x∣C_i)\hat p^(C_i))=\sum_{j=1}^M x_{j}log\ \hat p_{ij}+log\ \hat p(C_i)$
高斯分布
1. 建立似然函数
  
  $L(X|\mu,\sigma)=-\frac{N}{2}log(2\pi)-Nlog\sigma-\frac{\sum_t(x^t-\mu)^2}{2\sigma^2}$
2. 计算自变量的偏导，令等于0，得最大似然估计结果：
  
  $m=\frac{\sum_tx^t}{N}\\ s^2=\frac{\sum_t(x^t-m)^2}{N}$
3. 高斯分布用于分类
  1. 对每个类别 $C_i$ ，用MLE估计其高斯参数 $m_i,s_i^2)$ :
    
    $\hat p(x|C_i)=\frac{1}{\sqrt{2\pi s_i}}exp(-\frac{(x-m_i)^2}{2s_i^2})$
  2. 先验概率估计：
    
    $\hat p(C_i)=\frac{类别C_i的样本数}{N}$
  3. 构建判别式
    
    取对数后，判别函数 $g_i(x)$ 为:
    
    $g_i(x)=-\frac{1}{2}log2\pi-log\ s_i-\frac{(x-m_i)^2}{2s_i^2}+log\ \hat p(C_i)$

多元数据的贝叶斯模型

多元数据

被观测的样本具有多个特征（维度>1）

样本集可以用矩阵表示。

$X=\begin{bmatrix} X_1^1\quad X_2^1\quad \cdots\quad X_d^1\\ X_1^2\quad X_2^2\quad \cdots\quad X_d^2\\ .\\ .\\ X_1^N\quad X_2^N\quad \cdots\quad X_d^N \end{bmatrix}$