朴素贝叶斯算法原理与案例解析
朴素贝叶斯(Naive Bayes)算法原理与案例解析(补充似然概率计算)
一、算法核心原理
朴素贝叶斯是基于贝叶斯定理和特征条件独立性假设的分类算法,核心是通过概率计算判断样本所属类别。
1. 贝叶斯定理
对分类问题,贝叶斯定理可表示为:
P(类别∣特征)=P(特征∣类别)⋅P(类别)P(特征) P(类别|特征) = \frac{P(特征|类别) \cdot P(类别)}{P(特征)} P(类别∣特征)=P(特征)P(特征∣类别)⋅P(类别)
- P(类别)P(类别)P(类别):先验概率(某类别在训练集中的出现概率);
- P(特征∣类别)P(特征|类别)P(特征∣类别):似然概率(已知类别时,特征出现的概率,核心计算点);
- P(特征)P(特征)P(特征):证据(对所有类别相同,计算时可忽略);
- P(类别∣特征)P(类别|特征)P(类别∣特征):后验概率(已知特征时样本属于某类别的概率,用于分类)。
2. 特征条件独立性假设(“朴素”的由来)
假设所有特征相互独立,因此:
P(特征1,特征2,...,特征n∣类别)=∏i=1nP(特征i∣类别) P(特征_1, 特征_2, ..., 特征_n|类别) = \prod_{i=1}^{n} P(特征_i|类别) P(特征1,特征2,...,特征n∣类别)=i=1∏nP(特征i∣类别)
这一假设将复杂的联合概率计算简化为“单个特征条件概率的乘积”,大幅降低计算难度。
3. 分类逻辑
对新样本,计算其属于每个类别的后验概率,取最大值对应的类别:
预测类别=argmax类别[P(类别)⋅∏i=1nP(特征i∣类别)] 预测类别 = \arg\max_{类别} \left[ P(类别) \cdot \prod_{i=1}^{n} P(特征_i|类别) \right] 预测类别=arg类别max[P(类别)⋅i=1∏nP(特征i∣类别)]
二、关键概率计算
1. 先验概率P(类别)P(类别)P(类别)
直接通过训练集统计:
P(类别)=该类别样本数总样本数 P(类别) = \frac{该类别样本数}{总样本数} P(类别)=总样本数该类别样本数
示例:若训练集中有100个样本,其中“垃圾邮件”30个,则P(垃圾邮件)=30/100=0.3P(垃圾邮件) = 30/100 = 0.3P(垃圾邮件)=30/100=0.3。
2. 似然概率P(特征i∣类别)P(特征_i|类别)P(特征i∣类别)(核心补充)
似然概率是“已知类别时,特征iii取某值的概率”,计算方式因特征类型(离散/连续)而异:
(1)离散特征(如文本中的词、性别等)
-
基础公式:
P(特征i=值∣类别)=类别中特征i取该值的样本数类别总样本数 P(特征_i = 值|类别) = \frac{类别中特征_i取该值的样本数}{类别总样本数} P(特征i=值∣类别)=类别总样本数类别中特征i取该值的样本数 -
问题:若某特征在某类别中从未出现(分子为0),会导致整体概率为0,需用拉普拉斯平滑解决:
P(特征i=值∣类别)=类别中特征i取该值的样本数+λ类别总样本数+λ⋅特征i的取值总数 P(特征_i = 值|类别) = \frac{类别中特征_i取该值的样本数 + \lambda}{类别总样本数 + \lambda \cdot 特征_i的取值总数} P(特征i=值∣类别)=类别总样本数+λ⋅特征i的取值总数类别中特征i取该值的样本数+λ- λ\lambdaλ:平滑参数(通常取1,即拉普拉斯平滑;λ>0\lambda>0λ>0时为Lidstone平滑);
- 特征iii的取值总数:如“性别”有2个取值(男/女),则此处为2。
示例:
训练集中“垃圾邮件”有30封,其中包含“优惠”一词的有20封。
- 未平滑:P(优惠∣垃圾邮件)=20/30≈0.67P(优惠|垃圾邮件) = 20/30 ≈ 0.67P(优惠∣垃圾邮件)=20/30≈0.67;
- 若“垃圾邮件”中从未出现“会议”一词(分子=0),特征“会议”的取值总数为2(出现/不出现):
平滑后:P(会议∣垃圾邮件)=(0+1)/(30+1×2)=1/32≈0.03P(会议|垃圾邮件) = (0 + 1)/(30 + 1×2) = 1/32 ≈ 0.03P(会议∣垃圾邮件)=(0+1)/(30+1×2)=1/32≈0.03。
(2)连续特征(如身高、温度、像素值等)
通常假设特征在某类别下服从高斯分布(正态分布),用高斯概率密度函数计算似然:
P(特征i=x∣类别)=12πσ2exp(−(x−μ)22σ2) P(特征_i = x|类别) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right) P(特征i=x∣类别)=2πσ21exp(−2σ2(x−μ)2)
- μ\muμ:该类别下特征iii的均值(μ=1n∑样本特征i值\mu = \frac{1}{n}\sum_{样本} 特征_i值μ=n1∑样本特征i值);
- σ2\sigma^2σ2:该类别下特征iii的方差(σ2=1n−1∑样本(特征i值−μ)2\sigma^2 = \frac{1}{n-1}\sum_{样本} (特征_i值 - \mu)^2σ2=n−11∑样本(特征i值−μ)2)。
示例:
“垃圾邮件”中“字符长度”特征的均值μ=100\mu=100μ=100,方差σ2=25\sigma^2=25σ2=25。
计算某邮件字符长度x=90x=90x=90时的似然:
P(90∣垃圾邮件)=12π×25exp(−(90−100)22×25)≈0.027 P(90|垃圾邮件) = \frac{1}{\sqrt{2\pi×25}} \exp\left( -\frac{(90-100)^2}{2×25} \right) ≈ 0.027 P(90∣垃圾邮件)=2π×251exp(−2×25(90−100)2)≈0.027
三、完整案例解析(离散特征:垃圾邮件识别)
1. 数据准备
5封邮件的特征(关键词出现与否)和标签(1=垃圾邮件,0=正常):
邮件ID | 特征(1=出现,0=不出现) | 标签 |
---|---|---|
1 | 优惠=1,中奖=1,会议=0 | 1 |
2 | 优惠=1,中奖=0,会议=0 | 1 |
3 | 优惠=0,中奖=0,会议=1 | 0 |
4 | 优惠=0,中奖=0,会议=1 | 0 |
5 | 优惠=1,中奖=1,会议=0 | 1 |
2. 计算先验概率P(类别)P(类别)P(类别)
- 垃圾邮件(标签1)共3封,正常邮件(标签0)共2封,总样本=5。
- P(垃圾邮件)=3/5=0.6P(垃圾邮件) = 3/5 = 0.6P(垃圾邮件)=3/5=0.6,P(正常邮件)=2/5=0.4P(正常邮件) = 2/5 = 0.4P(正常邮件)=2/5=0.4。
3. 计算似然概率P(特征∣类别)P(特征|类别)P(特征∣类别)(拉普拉斯平滑,λ=1\lambda=1λ=1)
特征取值总数均为2(出现/不出现),计算如下:
特征 | 类别 | 该类别中特征出现次数 | 似然概率(平滑后) |
---|---|---|---|
优惠 | 垃圾邮件 | 3(邮件1、2、5) | (3+1)/(3+1×2)=4/5=0.8(3+1)/(3 + 1×2) = 4/5 = 0.8(3+1)/(3+1×2)=4/5=0.8 |
优惠 | 正常邮件 | 0(正常邮件中未出现) | (0+1)/(2+1×2)=1/4=0.25(0+1)/(2 + 1×2) = 1/4 = 0.25(0+1)/(2+1×2)=1/4=0.25 |
中奖 | 垃圾邮件 | 2(邮件1、5) | (2+1)/(3+2)=3/5=0.6(2+1)/(3+2) = 3/5 = 0.6(2+1)/(3+2)=3/5=0.6 |
中奖 | 正常邮件 | 0 | (0+1)/(2+2)=1/4=0.25(0+1)/(2+2) = 1/4 = 0.25(0+1)/(2+2)=1/4=0.25 |
会议 | 垃圾邮件 | 0(垃圾邮件中未出现) | (0+1)/(3+2)=1/5=0.2(0+1)/(3+2) = 1/5 = 0.2(0+1)/(3+2)=1/5=0.2 |
会议 | 正常邮件 | 2(邮件3、4) | (2+1)/(2+2)=3/4=0.75(2+1)/(2+2) = 3/4 = 0.75(2+1)/(2+2)=3/4=0.75 |
4. 预测新邮件:“优惠=1,中奖=0,会议=1”
计算该邮件属于两类的后验概率(比较P(类别)×∏P(特征∣类别)P(类别)×\prod P(特征|类别)P(类别)×∏P(特征∣类别)):
-
属于垃圾邮件的概率:
0.6×P(优惠∣垃圾)×P(中奖∣垃圾)×P(会议∣垃圾)0.6 × P(优惠|垃圾) × P(中奖|垃圾) × P(会议|垃圾)0.6×P(优惠∣垃圾)×P(中奖∣垃圾)×P(会议∣垃圾)
=0.6×0.8×(1−0.6)×0.2= 0.6 × 0.8 × (1 - 0.6) × 0.2=0.6×0.8×(1−0.6)×0.2(注:中奖=0即“不出现”的概率=1-出现的概率)
=0.6×0.8×0.4×0.2=0.0384= 0.6 × 0.8 × 0.4 × 0.2 = 0.0384=0.6×0.8×0.4×0.2=0.0384 -
属于正常邮件的概率:
0.4×P(优惠∣正常)×P(中奖∣正常)×P(会议∣正常)0.4 × P(优惠|正常) × P(中奖|正常) × P(会议|正常)0.4×P(优惠∣正常)×P(中奖∣正常)×P(会议∣正常)
=0.4×0.25×(1−0.25)×0.75= 0.4 × 0.25 × (1 - 0.25) × 0.75=0.4×0.25×(1−0.25)×0.75
=0.4×0.25×0.75×0.75=0.05625= 0.4 × 0.25 × 0.75 × 0.75 = 0.05625=0.4×0.25×0.75×0.75=0.05625 -
结论:0.05625>0.03840.05625 > 0.03840.05625>0.0384,预测为正常邮件。
四、案例解析(连续特征:鸢尾花分类,高斯朴素贝叶斯)
鸢尾花数据集是机器学习经典数据集,包含3个类别(山鸢尾、变色鸢尾、维吉尼亚鸢尾)和4个连续特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度)。下面用高斯朴素贝叶斯完整演示分类过程,重点说明连续特征的似然概率计算。
1、数据准备
1. 数据集概览
选取部分样本(简化后),类别标签:0=山鸢尾,1=变色鸢尾,2=维吉尼亚鸢尾:
样本ID | 花萼长度(cm) | 花萼宽度(cm) | 花瓣长度(cm) | 花瓣宽度(cm) | 类别 |
---|---|---|---|---|---|
1 | 5.1 | 3.5 | 1.4 | 0.2 | 0 |
2 | 4.9 | 3.0 | 1.4 | 0.2 | 0 |
3 | 4.7 | 3.2 | 1.3 | 0.2 | 0 |
4 | 6.4 | 3.2 | 4.5 | 1.5 | 1 |
5 | 6.9 | 3.1 | 4.9 | 1.5 | 1 |
6 | 5.5 | 2.3 | 4.0 | 1.3 | 1 |
7 | 6.3 | 3.3 | 6.0 | 2.5 | 2 |
8 | 5.8 | 2.7 | 5.1 | 1.9 | 2 |
9 | 7.1 | 3.0 | 5.9 | 2.1 | 2 |
2. 目标
对新样本(花萼长=5.6,花萼宽=2.8,花瓣长=4.9,花瓣宽=2.0),用高斯朴素贝叶斯预测其类别。
2、高斯朴素贝叶斯核心步骤
1. 计算先验概率P(类别)
先验概率=某类别样本数/总样本数(总样本数=9):
- 山鸢尾(0):3个样本 → P(0)=3/9≈0.333P(0) = 3/9 ≈ 0.333P(0)=3/9≈0.333
- 变色鸢尾(1):3个样本 → P(1)=3/9≈0.333P(1) = 3/9 ≈ 0.333P(1)=3/9≈0.333
- 维吉尼亚鸢尾(2):3个样本 → P(2)=3/9≈0.333P(2) = 3/9 ≈ 0.333P(2)=3/9≈0.333
2. 计算每个类别下的特征均值(μ)和方差(σ²)
高斯朴素贝叶斯假设每个类别下的连续特征服从高斯分布,需先计算每个类别中4个特征的均值和方差:
类别 | 特征 | 均值μ(样本均值) | 方差σ²(样本方差) |
---|---|---|---|
0 | 花萼长度 | (5.1+4.9+4.7)/3 = 4.9 | [(5.1-4.9)²+(4.9-4.9)²+(4.7-4.9)²]/(3-1) = 0.04 |
0 | 花萼宽度 | (3.5+3.0+3.2)/3 ≈ 3.233 | [(3.5-3.233)²+(3.0-3.233)²+(3.2-3.233)²]/2 ≈ 0.063 |
0 | 花瓣长度 | (1.4+1.4+1.3)/3 ≈ 1.367 | [(1.4-1.367)²+(1.4-1.367)²+(1.3-1.367)²]/2 ≈ 0.003 |
0 | 花瓣宽度 | (0.2+0.2+0.2)/3 = 0.2 | 0(所有样本值相同) |
------ | -------------- | --------------------------------- | --------------------------------- |
1 | 花萼长度 | (6.4+6.9+5.5)/3 ≈ 6.267 | [(6.4-6.267)²+(6.9-6.267)²+(5.5-6.267)²]/2 ≈ 0.423 |
1 | 花萼宽度 | (3.2+3.1+2.3)/3 ≈ 2.867 | [(3.2-2.867)²+(3.1-2.867)²+(2.3-2.867)²]/2 ≈ 0.163 |
1 | 花瓣长度 | (4.5+4.9+4.0)/3 ≈ 4.467 | [(4.5-4.467)²+(4.9-4.467)²+(4.0-4.467)²]/2 ≈ 0.183 |
1 | 花瓣宽度 | (1.5+1.5+1.3)/3 ≈ 1.433 | [(1.5-1.433)²+(1.5-1.433)²+(1.3-1.433)²]/2 ≈ 0.013 |
------ | -------------- | --------------------------------- | --------------------------------- |
2 | 花萼长度 | (6.3+5.8+7.1)/3 ≈ 6.4 | [(6.3-6.4)²+(5.8-6.4)²+(7.1-6.4)²]/2 ≈ 0.370 |
2 | 花萼宽度 | (3.3+2.7+3.0)/3 = 3.0 | [(3.3-3.0)²+(2.7-3.0)²+(3.0-3.0)²]/2 ≈ 0.090 |
2 | 花瓣长度 | (6.0+5.1+5.9)/3 ≈ 5.667 | [(6.0-5.667)²+(5.1-5.667)²+(5.9-5.667)²]/2 ≈ 0.223 |
2 | 花瓣宽度 | (2.5+1.9+2.1)/3 ≈ 2.167 | [(2.5-2.167)²+(1.9-2.167)²+(2.1-2.167)²]/2 ≈ 0.083 |
3. 计算似然概率(高斯密度函数)
对新样本特征x=(5.6,2.8,4.9,2.0)x=(5.6, 2.8, 4.9, 2.0)x=(5.6,2.8,4.9,2.0),计算每个特征在3个类别下的似然概率P(x∣类别)P(x|类别)P(x∣类别),公式:
P(x∣类别)=12πσ2exp(−(x−μ)22σ2) P(x|类别) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right) P(x∣类别)=2πσ21exp(−2σ2(x−μ)2)
(1)新样本属于“山鸢尾(0)”的似然概率
逐个特征计算:
-
花萼长度=5.6:
μ=4.9\mu=4.9μ=4.9,σ2=0.04\sigma^2=0.04σ2=0.04
P(5.6∣0)=12π×0.04exp(−(5.6−4.9)22×0.04)≈10.49exp(−6.125)≈2.04×0.0022≈0.0045P(5.6|0) = \frac{1}{\sqrt{2\pi×0.04}} \exp\left( -\frac{(5.6-4.9)^2}{2×0.04} \right) ≈ \frac{1}{0.49} \exp(-6.125) ≈ 2.04 × 0.0022 ≈ 0.0045P(5.6∣0)=2π×0.041exp(−2×0.04(5.6−4.9)2)≈0.491exp(−6.125)≈2.04×0.0022≈0.0045 -
花萼宽度=2.8:
μ=3.233\mu=3.233μ=3.233,σ2=0.063\sigma^2=0.063σ2=0.063
P(2.8∣0)≈12π×0.063exp(−(2.8−3.233)22×0.063)≈1.99×exp(−1.49)≈1.99×0.225≈0.448P(2.8|0) ≈ \frac{1}{\sqrt{2\pi×0.063}} \exp\left( -\frac{(2.8-3.233)^2}{2×0.063} \right) ≈ 1.99 × \exp(-1.49) ≈ 1.99 × 0.225 ≈ 0.448P(2.8∣0)≈2π×0.0631exp(−2×0.063(2.8−3.233)2)≈1.99×exp(−1.49)≈1.99×0.225≈0.448 -
花瓣长度=4.9:
μ=1.367\mu=1.367μ=1.367,σ2=0.003\sigma^2=0.003σ2=0.003
P(4.9∣0)≈12π×0.003exp(−(4.9−1.367)22×0.003)≈12.91×exp(−2073)≈0P(4.9|0) ≈ \frac{1}{\sqrt{2\pi×0.003}} \exp\left( -\frac{(4.9-1.367)^2}{2×0.003} \right) ≈ 12.91 × \exp(-2073) ≈ 0P(4.9∣0)≈2π×0.0031exp(−2×0.003(4.9−1.367)2)≈12.91×exp(−2073)≈0(因特征值与均值差异极大,概率趋近于0) -
花瓣宽度=2.0:
因前一个特征概率已趋近于0,整体似然乘积为0,无需继续计算。
(2)新样本属于“变色鸢尾(1)”的似然概率
-
花萼长度=5.6:
μ=6.267\mu=6.267μ=6.267,σ2=0.423\sigma^2=0.423σ2=0.423
P(5.6∣1)≈12π×0.423exp(−(5.6−6.267)22×0.423)≈0.87×exp(−0.52)≈0.87×0.594≈0.517P(5.6|1) ≈ \frac{1}{\sqrt{2\pi×0.423}} \exp\left( -\frac{(5.6-6.267)^2}{2×0.423} \right) ≈ 0.87 × \exp(-0.52) ≈ 0.87 × 0.594 ≈ 0.517P(5.6∣1)≈2π×0.4231exp(−2×0.423(5.6−6.267)2)≈0.87×exp(−0.52)≈0.87×0.594≈0.517 -
花萼宽度=2.8:
μ=2.867\mu=2.867μ=2.867,σ2=0.163\sigma^2=0.163σ2=0.163
P(2.8∣1)≈12π×0.163exp(−(2.8−2.867)22×0.163)≈1.24×exp(−0.013)≈1.24×0.987≈1.224P(2.8|1) ≈ \frac{1}{\sqrt{2\pi×0.163}} \exp\left( -\frac{(2.8-2.867)^2}{2×0.163} \right) ≈ 1.24 × \exp(-0.013) ≈ 1.24 × 0.987 ≈ 1.224P(2.8∣1)≈2π×0.1631exp(−2×0.163(2.8−2.867)2)≈1.24×exp(−0.013)≈1.24×0.987≈1.224 -
花瓣长度=4.9:
μ=4.467\mu=4.467μ=4.467,σ2=0.183\sigma^2=0.183σ2=0.183
P(4.9∣1)≈12π×0.183exp(−(4.9−4.467)22×0.183)≈1.17×exp(−0.51)≈1.17×0.601≈0.703P(4.9|1) ≈ \frac{1}{\sqrt{2\pi×0.183}} \exp\left( -\frac{(4.9-4.467)^2}{2×0.183} \right) ≈ 1.17 × \exp(-0.51) ≈ 1.17 × 0.601 ≈ 0.703P(4.9∣1)≈2π×0.1831exp(−2×0.183(4.9−4.467)2)≈1.17×exp(−0.51)≈1.17×0.601≈0.703 -
花瓣宽度=2.0:
μ=1.433\mu=1.433μ=1.433,σ2=0.013\sigma^2=0.013σ2=0.013
P(2.0∣1)≈12π×0.013exp(−(2.0−1.433)22×0.013)≈4.37×exp(−12.2)≈4.37×5.5×10−6≈0.000024P(2.0|1) ≈ \frac{1}{\sqrt{2\pi×0.013}} \exp\left( -\frac{(2.0-1.433)^2}{2×0.013} \right) ≈ 4.37 × \exp(-12.2) ≈ 4.37 × 5.5×10^{-6} ≈ 0.000024P(2.0∣1)≈2π×0.0131exp(−2×0.013(2.0−1.433)2)≈4.37×exp(−12.2)≈4.37×5.5×10−6≈0.000024 -
似然乘积:0.517×1.224×0.703×0.000024≈0.00001070.517 × 1.224 × 0.703 × 0.000024 ≈ 0.00001070.517×1.224×0.703×0.000024≈0.0000107
(3)新样本属于“维吉尼亚鸢尾(2)”的似然概率
-
花萼长度=5.6:
μ=6.4\mu=6.4μ=6.4,σ2=0.370\sigma^2=0.370σ2=0.370
P(5.6∣2)≈12π×0.370exp(−(5.6−6.4)22×0.370)≈0.92×exp(−0.865)≈0.92×0.421≈0.387P(5.6|2) ≈ \frac{1}{\sqrt{2\pi×0.370}} \exp\left( -\frac{(5.6-6.4)^2}{2×0.370} \right) ≈ 0.92 × \exp(-0.865) ≈ 0.92 × 0.421 ≈ 0.387P(5.6∣2)≈2π×0.3701exp(−2×0.370(5.6−6.4)2)≈0.92×exp(−0.865)≈0.92×0.421≈0.387 -
花萼宽度=2.8:
μ=3.0\mu=3.0μ=3.0,σ2=0.090\sigma^2=0.090σ2=0.090
P(2.8∣2)≈12π×0.090exp(−(2.8−3.0)22×0.090)≈1.89×exp(−0.222)≈1.89×0.801≈1.514P(2.8|2) ≈ \frac{1}{\sqrt{2\pi×0.090}} \exp\left( -\frac{(2.8-3.0)^2}{2×0.090} \right) ≈ 1.89 × \exp(-0.222) ≈ 1.89 × 0.801 ≈ 1.514P(2.8∣2)≈2π×0.0901exp(−2×0.090(2.8−3.0)2)≈1.89×exp(−0.222)≈1.89×0.801≈1.514 -
花瓣长度=4.9:
μ=5.667\mu=5.667μ=5.667,σ2=0.223\sigma^2=0.223σ2=0.223
P(4.9∣2)≈12π×0.223exp(−(4.9−5.667)22×0.223)≈1.06×exp(−1.31)≈1.06×0.270≈0.286P(4.9|2) ≈ \frac{1}{\sqrt{2\pi×0.223}} \exp\left( -\frac{(4.9-5.667)^2}{2×0.223} \right) ≈ 1.06 × \exp(-1.31) ≈ 1.06 × 0.270 ≈ 0.286P(4.9∣2)≈2π×0.2231exp(−2×0.223(4.9−5.667)2)≈1.06×exp(−1.31)≈1.06×0.270≈0.286 -
花瓣宽度=2.0:
μ=2.167\mu=2.167μ=2.167,σ2=0.083\sigma^2=0.083σ2=0.083
P(2.0∣2)≈12π×0.083exp(−(2.0−2.167)22×0.083)≈1.38×exp(−0.168)≈1.38×0.845≈1.166P(2.0|2) ≈ \frac{1}{\sqrt{2\pi×0.083}} \exp\left( -\frac{(2.0-2.167)^2}{2×0.083} \right) ≈ 1.38 × \exp(-0.168) ≈ 1.38 × 0.845 ≈ 1.166P(2.0∣2)≈2π×0.0831exp(−2×0.083(2.0−2.167)2)≈1.38×exp(−0.168)≈1.38×0.845≈1.166 -
似然乘积:0.387×1.514×0.286×1.166≈0.387×1.514≈0.586;0.586×0.286≈0.168;0.168×1.166≈0.1960.387 × 1.514 × 0.286 × 1.166 ≈ 0.387 × 1.514 ≈ 0.586;0.586 × 0.286 ≈ 0.168;0.168 × 1.166 ≈ 0.1960.387×1.514×0.286×1.166≈0.387×1.514≈0.586;0.586×0.286≈0.168;0.168×1.166≈0.196
4. 计算后验概率并预测
后验概率 = 先验概率 × 似然概率乘积(因先验概率相同,直接比较似然乘积):
- 山鸢尾(0):0.333×0≈00.333 × 0 ≈ 00.333×0≈0
- 变色鸢尾(1):0.333×0.0000107≈0.00000360.333 × 0.0000107 ≈ 0.00000360.333×0.0000107≈0.0000036
- 维吉尼亚鸢尾(2):0.333×0.196≈0.0650.333 × 0.196 ≈ 0.0650.333×0.196≈0.065
预测结果:维吉尼亚鸢尾(类别2),因其后验概率最大。
5、关键结论
- 连续特征处理:高斯朴素贝叶斯通过假设特征服从高斯分布,用均值和方差拟合分布,再通过密度函数计算似然概率,巧妙解决了连续特征的概率计算问题。
- 分类逻辑:即使先验概率相同,特征与类别均值的“匹配度”(似然概率)也会主导分类结果(如新样本花瓣长度更接近维吉尼亚鸢尾的均值)。
通过完整案例可见,高斯朴素贝叶斯对连续特征的处理核心是“分布假设+概率密度计算”,适用于特征近似服从正态分布的场景。
五、优缺点与适用场景
- 优点:计算快、适合高维数据(如文本)、对小样本友好;
- 缺点:依赖“特征独立”假设(现实中常不成立)、对特征分布敏感;
- 适用场景:垃圾邮件识别、文本分类、情感分析、推荐系统等。
通过补充似然概率的计算细节可见,朴素贝叶斯的核心是根据特征类型(离散/连续)选择合适的概率计算方式,结合平滑处理避免零概率问题,最终通过概率比较实现分类。