当前位置：首页 > news >正文

贝叶斯分类器的相关理论学习

news 2025/11/7 13:31:21

一、贝叶斯决策

条件风险：
其中 $N$ 是总的类别标记， $\lambda_{ij}$ 是将样本 $c_j$ 误分类成 $c_i$ 所产生的损失， $x$ 是样本。
总体风险：
$R(h)=\mathbb{E}_x[R(h(x)\mid x)]\space.$
其中 $h$ 为最小化总体风险的判定准则。 $R(h(x)\mid x)$ 最小了的话，那么 R(h) 就最小了，即只需要选出每个样本上条件风险最小的类别标记
$h^*(x) = \operatorname*{arg\,min}_{c \in \mathcal{Y}} R(c \mid x) \,,$
该公式被称为贝叶斯最优分类器，对应的 $R(h^*)$ 叫做贝叶斯风险。 $1-R(h^*)$ 即为分类器的最好性能。
最小化分类错误率的贝叶斯最优分类器为：
$h^*(x) = \operatorname*{arg\,max}_{c \in \mathcal{Y}} P(c \mid x) \,,$
就相当于选择后验率最大的类别标记。

通俗来说就是条件概率的连乘。
$P(D_c\mid \theta_c)=\prod_{x\in D_c}\space P(x\mid \theta_c)\space.$
和概率论中一样，由于连乘容易下溢，一般都是取对数之后在继续求极大似然。
要求 $\theta_c$ 的极大似然估计，就相当于就上述函数的极值。

基本的理解就可以完全按照概率论中的贝叶斯公式来理解，分一下离散和连续两种情况的 $P(x_i\mid c)$ 的计算方式：
- 离散：目标样本数 / 总样本数；
- 连续：
  $\frac{1}{\sqrt{2\pi}\sigma_{c,i}}\exp\bigg(-\frac{(x_i-\mu_{c,i})^2}{2\sigma^2_{c,i}} \bigg)\space.$
其中的理解还是与数学概率论中相同；

贝叶斯网结构上就是一个有向无环图。
在网络中每个属性都和它的非后裔属性独立，其联合概率分布为：
$P_B(x_1,x_2,...,x_d)=\prod^d_{i=1}P_B(x_i\mid \pi_i)=\prod^d_{i=1}\theta_{x_i|\pi_i}\space,$
其中 $\pi$ 是 $x$ 的父节点。
道德图：即把有向图中的所有 $\text{V}$ 型结构的两个父节点连上，再把所有的有向边改为无向边。
“最小描述长度”准则：一般通常情况下我们是通过评分函数来寻找最好的贝叶斯网络（基于信息论准则），找一个以最短编码长度描述训练数据的模型。
评分函数：