当前位置：首页 > news >正文

朴素贝叶斯算法原理与案例解析

news 2025/7/23 9:41:57

朴素贝叶斯（Naive Bayes）算法原理与案例解析（补充似然概率计算）

一、算法核心原理

朴素贝叶斯是基于贝叶斯定理和特征条件独立性假设的分类算法，核心是通过概率计算判断样本所属类别。

1. 贝叶斯定理

对分类问题，贝叶斯定理可表示为：
$\frac{P(特征|类别) \cdot P(类别)}{P(特征)}$

$P (类别)$ ：先验概率（某类别在训练集中的出现概率）；
$P (特征 ∣ 类别)$ ：似然概率（已知类别时，特征出现的概率，核心计算点）；
$P (特征)$ ：证据（对所有类别相同，计算时可忽略）；
$P (类别 ∣ 特征)$ ：后验概率（已知特征时样本属于某类别的概率，用于分类）。

2. 特征条件独立性假设（“朴素”的由来）

假设所有特征相互独立，因此：
$P(特征_1, 特征_2, ..., 特征_n|类别) = \prod_{i=1}^{n} P(特征_i|类别)$

这一假设将复杂的联合概率计算简化为“单个特征条件概率的乘积”，大幅降低计算难度。

3. 分类逻辑

对新样本，计算其属于每个类别的后验概率，取最大值对应的类别：
$\arg\max_{类别} \left[ P(类别) \cdot \prod_{i=1}^{n} P(特征_i|类别) \right]$

二、关键概率计算

1. 先验概率 $P (类别)$

直接通过训练集统计：
$\frac{该类别样本数}{总样本数}$

示例：若训练集中有100个样本，其中“垃圾邮件”30个，则 $P (垃圾邮件) = 30/100 = 0.3$ 。

2. 似然概率 $P(特征_i|类别)$ （核心补充）

似然概率是“已知类别时，特征 $i$ 取某值的概率”，计算方式因特征类型（离散/连续）而异：

（1）离散特征（如文本中的词、性别等）

基础公式：
$P(特征_i = 值|类别) = \frac{类别中特征_i取该值的样本数}{类别总样本数}$
问题：若某特征在某类别中从未出现（分子为0），会导致整体概率为0，需用拉普拉斯平滑解决：
$P(特征_i = 值|类别) = \frac{类别中特征_i取该值的样本数 + \lambda}{类别总样本数 + \lambda \cdot 特征_i的取值总数}$
- $λ\lambda$ ：平滑参数（通常取1，即拉普拉斯平滑； $λ>0\lambda>0$ 时为Lidstone平滑）；
- 特征 $i$ 的取值总数：如“性别”有2个取值（男/女），则此处为2。

示例：
训练集中“垃圾邮件”有30封，其中包含“优惠”一词的有20封。

未平滑： $P (优惠 ∣ 垃圾邮件) = 20/30 \approx 0.67$ ；
若“垃圾邮件”中从未出现“会议”一词（分子=0），特征“会议”的取值总数为2（出现/不出现）：
平滑后： $P (会议 ∣ 垃圾邮件) = (0 + 1) / (30 + 1 \times 2) = 1/32 \approx 0.03$ 。

（2）连续特征（如身高、温度、像素值等）

通常假设特征在某类别下服从高斯分布（正态分布），用高斯概率密度函数计算似然：
$P(特征_i = x|类别) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right)$

$μ\mu$ ：该类别下特征 $i$ 的均值（ $μ=1n∑样本特征i值\mu = \frac{1}{n}\sum_{样本} 特征_i值$ ）；
$σ2\sigma^2$ ：该类别下特征 $i$ 的方差（ $σ2=1n−1∑样本(特征i值−μ)2\sigma^2 = \frac{1}{n-1}\sum_{样本} (特征_i值 - \mu)^2$ ）。

示例：
“垃圾邮件”中“字符长度”特征的均值 $μ=100\mu=100$ ，方差 $σ2=25\sigma^2=25$ 。
计算某邮件字符长度 $x = 90$ 时的似然：
$\frac{1}{\sqrt{2\pi×25}} \exp\left( -\frac{(90-100)^2}{2×25} \right) ≈ 0.027$

三、完整案例解析（离散特征：垃圾邮件识别）

1. 数据准备

5封邮件的特征（关键词出现与否）和标签（1=垃圾邮件，0=正常）：

邮件ID	特征（1=出现，0=不出现）	标签
1	优惠=1，中奖=1，会议=0	1
2	优惠=1，中奖=0，会议=0	1
3	优惠=0，中奖=0，会议=1	0
4	优惠=0，中奖=0，会议=1	0
5	优惠=1，中奖=1，会议=0	1

2. 计算先验概率 $P (类别)$

垃圾邮件（标签1）共3封，正常邮件（标签0）共2封，总样本=5。
$P (垃圾邮件) = 3/5 = 0.6$ ， $P (正常邮件) = 2/5 = 0.4$ 。

3. 计算似然概率 $P (特征 ∣ 类别)$ （拉普拉斯平滑， $λ=1\lambda=1$ ）

特征取值总数均为2（出现/不出现），计算如下：

特征	类别	该类别中特征出现次数	似然概率（平滑后）
优惠	垃圾邮件	3（邮件1、2、5）	$(3 + 1) / (3 + 1 \times 2) = 4/5 = 0.8$
优惠	正常邮件	0（正常邮件中未出现）	$(0 + 1) / (2 + 1 \times 2) = 1/4 = 0.25$
中奖	垃圾邮件	2（邮件1、5）	$(2 + 1) / (3 + 2) = 3/5 = 0.6$
中奖	正常邮件	0	$(0 + 1) / (2 + 2) = 1/4 = 0.25$
会议	垃圾邮件	0（垃圾邮件中未出现）	$(0 + 1) / (3 + 2) = 1/5 = 0.2$
会议	正常邮件	2（邮件3、4）	$(2 + 1) / (2 + 2) = 3/4 = 0.75$

4. 预测新邮件：“优惠=1，中奖=0，会议=1”

计算该邮件属于两类的后验概率（比较 $P(类别)×∏P(特征∣类别)P(类别)×\prod P(特征|类别)$ ）：

属于垃圾邮件的概率：
$0.6 \times P (优惠 ∣ 垃圾) \times P (中奖 ∣ 垃圾) \times P (会议 ∣ 垃圾)$
$= 0.6 \times 0.8 \times (1 - 0.6) \times 0.2$ （注：中奖=0即“不出现”的概率=1-出现的概率）
$= 0.6 \times 0.8 \times 0.4 \times 0.2 = 0.0384$
属于正常邮件的概率：
$0.4 \times P (优惠 ∣ 正常) \times P (中奖 ∣ 正常) \times P (会议 ∣ 正常)$
$= 0.4 \times 0.25 \times (1 - 0.25) \times 0.75$
$= 0.4 \times 0.25 \times 0.75 \times 0.75 = 0.05625$
结论： $0.05625 > 0.0384$ ，预测为正常邮件。

四、案例解析（连续特征：鸢尾花分类，高斯朴素贝叶斯）

鸢尾花数据集是机器学习经典数据集，包含3个类别（山鸢尾、变色鸢尾、维吉尼亚鸢尾）和4个连续特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度）。下面用高斯朴素贝叶斯完整演示分类过程，重点说明连续特征的似然概率计算。

1、数据准备

1. 数据集概览

选取部分样本（简化后），类别标签：0=山鸢尾，1=变色鸢尾，2=维吉尼亚鸢尾：

样本ID	花萼长度(cm)	花萼宽度(cm)	花瓣长度(cm)	花瓣宽度(cm)	类别
1	5.1	3.5	1.4	0.2	0
2	4.9	3.0	1.4	0.2	0
3	4.7	3.2	1.3	0.2	0
4	6.4	3.2	4.5	1.5	1
5	6.9	3.1	4.9	1.5	1
6	5.5	2.3	4.0	1.3	1
7	6.3	3.3	6.0	2.5	2
8	5.8	2.7	5.1	1.9	2
9	7.1	3.0	5.9	2.1	2

2. 目标

对新样本（花萼长=5.6，花萼宽=2.8，花瓣长=4.9，花瓣宽=2.0），用高斯朴素贝叶斯预测其类别。

2、高斯朴素贝叶斯核心步骤

1. 计算先验概率P(类别)

先验概率=某类别样本数/总样本数（总样本数=9）：

山鸢尾（0）：3个样本 → $P (0) = 3/9 \approx 0.333$
变色鸢尾（1）：3个样本 → $P (1) = 3/9 \approx 0.333$
维吉尼亚鸢尾（2）：3个样本 → $P (2) = 3/9 \approx 0.333$

2. 计算每个类别下的特征均值（μ）和方差（σ²）

高斯朴素贝叶斯假设每个类别下的连续特征服从高斯分布，需先计算每个类别中4个特征的均值和方差：

类别	特征	均值μ（样本均值）	方差σ²（样本方差）
0	花萼长度	(5.1+4.9+4.7)/3 = 4.9	[(5.1-4.9)²+(4.9-4.9)²+(4.7-4.9)²]/(3-1) = 0.04
0	花萼宽度	(3.5+3.0+3.2)/3 ≈ 3.233	[(3.5-3.233)²+(3.0-3.233)²+(3.2-3.233)²]/2 ≈ 0.063
0	花瓣长度	(1.4+1.4+1.3)/3 ≈ 1.367	[(1.4-1.367)²+(1.4-1.367)²+(1.3-1.367)²]/2 ≈ 0.003
0	花瓣宽度	(0.2+0.2+0.2)/3 = 0.2	0（所有样本值相同）
------	--------------	---------------------------------	---------------------------------
1	花萼长度	(6.4+6.9+5.5)/3 ≈ 6.267	[(6.4-6.267)²+(6.9-6.267)²+(5.5-6.267)²]/2 ≈ 0.423
1	花萼宽度	(3.2+3.1+2.3)/3 ≈ 2.867	[(3.2-2.867)²+(3.1-2.867)²+(2.3-2.867)²]/2 ≈ 0.163
1	花瓣长度	(4.5+4.9+4.0)/3 ≈ 4.467	[(4.5-4.467)²+(4.9-4.467)²+(4.0-4.467)²]/2 ≈ 0.183
1	花瓣宽度	(1.5+1.5+1.3)/3 ≈ 1.433	[(1.5-1.433)²+(1.5-1.433)²+(1.3-1.433)²]/2 ≈ 0.013
------	--------------	---------------------------------	---------------------------------
2	花萼长度	(6.3+5.8+7.1)/3 ≈ 6.4	[(6.3-6.4)²+(5.8-6.4)²+(7.1-6.4)²]/2 ≈ 0.370
2	花萼宽度	(3.3+2.7+3.0)/3 = 3.0	[(3.3-3.0)²+(2.7-3.0)²+(3.0-3.0)²]/2 ≈ 0.090
2	花瓣长度	(6.0+5.1+5.9)/3 ≈ 5.667	[(6.0-5.667)²+(5.1-5.667)²+(5.9-5.667)²]/2 ≈ 0.223
2	花瓣宽度	(2.5+1.9+2.1)/3 ≈ 2.167	[(2.5-2.167)²+(1.9-2.167)²+(2.1-2.167)²]/2 ≈ 0.083

3. 计算似然概率（高斯密度函数）

对新样本特征 $x = (5.6, 2.8, 4.9, 2.0)$ ，计算每个特征在3个类别下的似然概率 $P (x ∣ 类别)$ ，公式：
$\frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right)$

（1）新样本属于“山鸢尾（0）”的似然概率

逐个特征计算：

花萼长度=5.6：
$μ=4.9\mu=4.9$ ， $σ2=0.04\sigma^2=0.04$
$\frac{1}{\sqrt{2\pi×0.04}} \exp\left( -\frac{(5.6-4.9)^2}{2×0.04} \right) ≈ \frac{1}{0.49} \exp(-6.125) ≈ 2.04 × 0.0022 ≈ 0.0045$
花萼宽度=2.8：
$μ=3.233\mu=3.233$ ， $σ2=0.063\sigma^2=0.063$
$\frac{1}{\sqrt{2\pi×0.063}} \exp\left( -\frac{(2.8-3.233)^2}{2×0.063} \right) ≈ 1.99 × \exp(-1.49) ≈ 1.99 × 0.225 ≈ 0.448$
花瓣长度=4.9：
$μ=1.367\mu=1.367$ ， $σ2=0.003\sigma^2=0.003$
$\frac{1}{\sqrt{2\pi×0.003}} \exp\left( -\frac{(4.9-1.367)^2}{2×0.003} \right) ≈ 12.91 × \exp(-2073) ≈ 0$ （因特征值与均值差异极大，概率趋近于0）
花瓣宽度=2.0：
因前一个特征概率已趋近于0，整体似然乘积为0，无需继续计算。

（2）新样本属于“变色鸢尾（1）”的似然概率

花萼长度=5.6：
$μ=6.267\mu=6.267$ ， $σ2=0.423\sigma^2=0.423$
$\frac{1}{\sqrt{2\pi×0.423}} \exp\left( -\frac{(5.6-6.267)^2}{2×0.423} \right) ≈ 0.87 × \exp(-0.52) ≈ 0.87 × 0.594 ≈ 0.517$
花萼宽度=2.8：
$μ=2.867\mu=2.867$ ， $σ2=0.163\sigma^2=0.163$
$\frac{1}{\sqrt{2\pi×0.163}} \exp\left( -\frac{(2.8-2.867)^2}{2×0.163} \right) ≈ 1.24 × \exp(-0.013) ≈ 1.24 × 0.987 ≈ 1.224$
花瓣长度=4.9：
$μ=4.467\mu=4.467$ ， $σ2=0.183\sigma^2=0.183$
$\frac{1}{\sqrt{2\pi×0.183}} \exp\left( -\frac{(4.9-4.467)^2}{2×0.183} \right) ≈ 1.17 × \exp(-0.51) ≈ 1.17 × 0.601 ≈ 0.703$
花瓣宽度=2.0：
$μ=1.433\mu=1.433$ ， $σ2=0.013\sigma^2=0.013$
$\frac{1}{\sqrt{2\pi×0.013}} \exp\left( -\frac{(2.0-1.433)^2}{2×0.013} \right) ≈ 4.37 × \exp(-12.2) ≈ 4.37 × 5.5×10^{-6} ≈ 0.000024$
似然乘积： $0.517 \times 1.224 \times 0.703 \times 0.000024 \approx 0.0000107$

（3）新样本属于“维吉尼亚鸢尾（2）”的似然概率

花萼长度=5.6：
$μ=6.4\mu=6.4$ ， $σ2=0.370\sigma^2=0.370$
$\frac{1}{\sqrt{2\pi×0.370}} \exp\left( -\frac{(5.6-6.4)^2}{2×0.370} \right) ≈ 0.92 × \exp(-0.865) ≈ 0.92 × 0.421 ≈ 0.387$
花萼宽度=2.8：
$μ=3.0\mu=3.0$ ， $σ2=0.090\sigma^2=0.090$
$\frac{1}{\sqrt{2\pi×0.090}} \exp\left( -\frac{(2.8-3.0)^2}{2×0.090} \right) ≈ 1.89 × \exp(-0.222) ≈ 1.89 × 0.801 ≈ 1.514$
花瓣长度=4.9：
$μ=5.667\mu=5.667$ ， $σ2=0.223\sigma^2=0.223$
$\frac{1}{\sqrt{2\pi×0.223}} \exp\left( -\frac{(4.9-5.667)^2}{2×0.223} \right) ≈ 1.06 × \exp(-1.31) ≈ 1.06 × 0.270 ≈ 0.286$
花瓣宽度=2.0：
$μ=2.167\mu=2.167$ ， $σ2=0.083\sigma^2=0.083$
$\frac{1}{\sqrt{2\pi×0.083}} \exp\left( -\frac{(2.0-2.167)^2}{2×0.083} \right) ≈ 1.38 × \exp(-0.168) ≈ 1.38 × 0.845 ≈ 1.166$
似然乘积： $0.387 \times 1.514 \times 0.286 \times 1.166 \approx 0.387 \times 1.514 \approx 0.586 ； 0.586 \times 0.286 \approx 0.168 ； 0.168 \times 1.166 \approx 0.196$