当前位置: 首页 > news >正文

朴素贝叶斯算法原理与案例解析

朴素贝叶斯(Naive Bayes)算法原理与案例解析(补充似然概率计算)

一、算法核心原理

朴素贝叶斯是基于贝叶斯定理特征条件独立性假设的分类算法,核心是通过概率计算判断样本所属类别。

1. 贝叶斯定理

对分类问题,贝叶斯定理可表示为:
P(类别∣特征)=P(特征∣类别)⋅P(类别)P(特征) P(类别|特征) = \frac{P(特征|类别) \cdot P(类别)}{P(特征)} P(类别特征)=P(特征)P(特征类别)P(类别)

  • P(类别)P(类别)P(类别):先验概率(某类别在训练集中的出现概率);
  • P(特征∣类别)P(特征|类别)P(特征类别):似然概率(已知类别时,特征出现的概率,核心计算点);
  • P(特征)P(特征)P(特征):证据(对所有类别相同,计算时可忽略);
  • P(类别∣特征)P(类别|特征)P(类别特征):后验概率(已知特征时样本属于某类别的概率,用于分类)。

2. 特征条件独立性假设(“朴素”的由来)

假设所有特征相互独立,因此:
P(特征1,特征2,...,特征n∣类别)=∏i=1nP(特征i∣类别) P(特征_1, 特征_2, ..., 特征_n|类别) = \prod_{i=1}^{n} P(特征_i|类别) P(1,2,...,n类别)=i=1nP(i类别)

这一假设将复杂的联合概率计算简化为“单个特征条件概率的乘积”,大幅降低计算难度。

3. 分类逻辑

对新样本,计算其属于每个类别的后验概率,取最大值对应的类别:
预测类别=arg⁡max⁡类别[P(类别)⋅∏i=1nP(特征i∣类别)] 预测类别 = \arg\max_{类别} \left[ P(类别) \cdot \prod_{i=1}^{n} P(特征_i|类别) \right] 预测类别=arg类别max[P(类别)i=1nP(i类别)]

二、关键概率计算

1. 先验概率P(类别)P(类别)P(类别)

直接通过训练集统计:
P(类别)=该类别样本数总样本数 P(类别) = \frac{该类别样本数}{总样本数} P(类别)=总样本数该类别样本数

示例:若训练集中有100个样本,其中“垃圾邮件”30个,则P(垃圾邮件)=30/100=0.3P(垃圾邮件) = 30/100 = 0.3P(垃圾邮件)=30/100=0.3

2. 似然概率P(特征i∣类别)P(特征_i|类别)P(i类别)(核心补充)

似然概率是“已知类别时,特征iii取某值的概率”,计算方式因特征类型(离散/连续)而异:

(1)离散特征(如文本中的词、性别等)
  • 基础公式
    P(特征i=值∣类别)=类别中特征i取该值的样本数类别总样本数 P(特征_i = 值|类别) = \frac{类别中特征_i取该值的样本数}{类别总样本数} P(i=类别)=类别总样本数类别中特i取该值的样本数

  • 问题:若某特征在某类别中从未出现(分子为0),会导致整体概率为0,需用拉普拉斯平滑解决:
    P(特征i=值∣类别)=类别中特征i取该值的样本数+λ类别总样本数+λ⋅特征i的取值总数 P(特征_i = 值|类别) = \frac{类别中特征_i取该值的样本数 + \lambda}{类别总样本数 + \lambda \cdot 特征_i的取值总数} P(i=类别)=类别总样本数+λi的取值总数类别中特i取该值的样本数+λ

    • λ\lambdaλ:平滑参数(通常取1,即拉普拉斯平滑;λ>0\lambda>0λ>0时为Lidstone平滑);
    • 特征iii的取值总数:如“性别”有2个取值(男/女),则此处为2。

示例
训练集中“垃圾邮件”有30封,其中包含“优惠”一词的有20封。

  • 未平滑:P(优惠∣垃圾邮件)=20/30≈0.67P(优惠|垃圾邮件) = 20/30 ≈ 0.67P(优惠垃圾邮件)=20/300.67
  • 若“垃圾邮件”中从未出现“会议”一词(分子=0),特征“会议”的取值总数为2(出现/不出现):
    平滑后:P(会议∣垃圾邮件)=(0+1)/(30+1×2)=1/32≈0.03P(会议|垃圾邮件) = (0 + 1)/(30 + 1×2) = 1/32 ≈ 0.03P(会议垃圾邮件)=(0+1)/(30+1×2)=1/320.03
(2)连续特征(如身高、温度、像素值等)

通常假设特征在某类别下服从高斯分布(正态分布),用高斯概率密度函数计算似然:
P(特征i=x∣类别)=12πσ2exp⁡(−(x−μ)22σ2) P(特征_i = x|类别) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right) P(i=x类别)=2πσ21exp(2σ2(xμ)2)

  • μ\muμ:该类别下特征iii的均值(μ=1n∑样本特征i值\mu = \frac{1}{n}\sum_{样本} 特征_i值μ=n1样本i);
  • σ2\sigma^2σ2:该类别下特征iii的方差(σ2=1n−1∑样本(特征i值−μ)2\sigma^2 = \frac{1}{n-1}\sum_{样本} (特征_i值 - \mu)^2σ2=n11样本(iμ)2)。

示例
“垃圾邮件”中“字符长度”特征的均值μ=100\mu=100μ=100,方差σ2=25\sigma^2=25σ2=25
计算某邮件字符长度x=90x=90x=90时的似然:
P(90∣垃圾邮件)=12π×25exp⁡(−(90−100)22×25)≈0.027 P(90|垃圾邮件) = \frac{1}{\sqrt{2\pi×25}} \exp\left( -\frac{(90-100)^2}{2×25} \right) ≈ 0.027 P(90∣垃圾邮件)=2π×251exp(2×25(90100)2)0.027

三、完整案例解析(离散特征:垃圾邮件识别)

1. 数据准备

5封邮件的特征(关键词出现与否)和标签(1=垃圾邮件,0=正常):

邮件ID特征(1=出现,0=不出现)标签
1优惠=1,中奖=1,会议=01
2优惠=1,中奖=0,会议=01
3优惠=0,中奖=0,会议=10
4优惠=0,中奖=0,会议=10
5优惠=1,中奖=1,会议=01

2. 计算先验概率P(类别)P(类别)P(类别)

  • 垃圾邮件(标签1)共3封,正常邮件(标签0)共2封,总样本=5。
  • P(垃圾邮件)=3/5=0.6P(垃圾邮件) = 3/5 = 0.6P(垃圾邮件)=3/5=0.6P(正常邮件)=2/5=0.4P(正常邮件) = 2/5 = 0.4P(正常邮件)=2/5=0.4

3. 计算似然概率P(特征∣类别)P(特征|类别)P(特征类别)(拉普拉斯平滑,λ=1\lambda=1λ=1

特征取值总数均为2(出现/不出现),计算如下:

特征类别该类别中特征出现次数似然概率(平滑后)
优惠垃圾邮件3(邮件1、2、5)(3+1)/(3+1×2)=4/5=0.8(3+1)/(3 + 1×2) = 4/5 = 0.8(3+1)/(3+1×2)=4/5=0.8
优惠正常邮件0(正常邮件中未出现)(0+1)/(2+1×2)=1/4=0.25(0+1)/(2 + 1×2) = 1/4 = 0.25(0+1)/(2+1×2)=1/4=0.25
中奖垃圾邮件2(邮件1、5)(2+1)/(3+2)=3/5=0.6(2+1)/(3+2) = 3/5 = 0.6(2+1)/(3+2)=3/5=0.6
中奖正常邮件0(0+1)/(2+2)=1/4=0.25(0+1)/(2+2) = 1/4 = 0.25(0+1)/(2+2)=1/4=0.25
会议垃圾邮件0(垃圾邮件中未出现)(0+1)/(3+2)=1/5=0.2(0+1)/(3+2) = 1/5 = 0.2(0+1)/(3+2)=1/5=0.2
会议正常邮件2(邮件3、4)(2+1)/(2+2)=3/4=0.75(2+1)/(2+2) = 3/4 = 0.75(2+1)/(2+2)=3/4=0.75

4. 预测新邮件:“优惠=1,中奖=0,会议=1”

计算该邮件属于两类的后验概率(比较P(类别)×∏P(特征∣类别)P(类别)×\prod P(特征|类别)P(类别)×P(特征类别)):

  • 属于垃圾邮件的概率
    0.6×P(优惠∣垃圾)×P(中奖∣垃圾)×P(会议∣垃圾)0.6 × P(优惠|垃圾) × P(中奖|垃圾) × P(会议|垃圾)0.6×P(优惠垃圾)×P(中奖垃圾)×P(会议垃圾)
    =0.6×0.8×(1−0.6)×0.2= 0.6 × 0.8 × (1 - 0.6) × 0.2=0.6×0.8×(10.6)×0.2(注:中奖=0即“不出现”的概率=1-出现的概率)
    =0.6×0.8×0.4×0.2=0.0384= 0.6 × 0.8 × 0.4 × 0.2 = 0.0384=0.6×0.8×0.4×0.2=0.0384

  • 属于正常邮件的概率
    0.4×P(优惠∣正常)×P(中奖∣正常)×P(会议∣正常)0.4 × P(优惠|正常) × P(中奖|正常) × P(会议|正常)0.4×P(优惠正常)×P(中奖正常)×P(会议正常)
    =0.4×0.25×(1−0.25)×0.75= 0.4 × 0.25 × (1 - 0.25) × 0.75=0.4×0.25×(10.25)×0.75
    =0.4×0.25×0.75×0.75=0.05625= 0.4 × 0.25 × 0.75 × 0.75 = 0.05625=0.4×0.25×0.75×0.75=0.05625

  • 结论0.05625>0.03840.05625 > 0.03840.05625>0.0384,预测为正常邮件

四、案例解析(连续特征:鸢尾花分类,高斯朴素贝叶斯)

鸢尾花数据集是机器学习经典数据集,包含3个类别(山鸢尾、变色鸢尾、维吉尼亚鸢尾)和4个连续特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度)。下面用高斯朴素贝叶斯完整演示分类过程,重点说明连续特征的似然概率计算。

1、数据准备

1. 数据集概览

选取部分样本(简化后),类别标签:0=山鸢尾,1=变色鸢尾,2=维吉尼亚鸢尾:

样本ID花萼长度(cm)花萼宽度(cm)花瓣长度(cm)花瓣宽度(cm)类别
15.13.51.40.20
24.93.01.40.20
34.73.21.30.20
46.43.24.51.51
56.93.14.91.51
65.52.34.01.31
76.33.36.02.52
85.82.75.11.92
97.13.05.92.12
2. 目标

对新样本(花萼长=5.6,花萼宽=2.8,花瓣长=4.9,花瓣宽=2.0),用高斯朴素贝叶斯预测其类别。

2、高斯朴素贝叶斯核心步骤

1. 计算先验概率P(类别)

先验概率=某类别样本数/总样本数(总样本数=9):

  • 山鸢尾(0):3个样本 → P(0)=3/9≈0.333P(0) = 3/9 ≈ 0.333P(0)=3/90.333
  • 变色鸢尾(1):3个样本 → P(1)=3/9≈0.333P(1) = 3/9 ≈ 0.333P(1)=3/90.333
  • 维吉尼亚鸢尾(2):3个样本 → P(2)=3/9≈0.333P(2) = 3/9 ≈ 0.333P(2)=3/90.333
2. 计算每个类别下的特征均值(μ)和方差(σ²)

高斯朴素贝叶斯假设每个类别下的连续特征服从高斯分布,需先计算每个类别中4个特征的均值和方差:

类别特征均值μ(样本均值)方差σ²(样本方差)
0花萼长度(5.1+4.9+4.7)/3 = 4.9[(5.1-4.9)²+(4.9-4.9)²+(4.7-4.9)²]/(3-1) = 0.04
0花萼宽度(3.5+3.0+3.2)/3 ≈ 3.233[(3.5-3.233)²+(3.0-3.233)²+(3.2-3.233)²]/2 ≈ 0.063
0花瓣长度(1.4+1.4+1.3)/3 ≈ 1.367[(1.4-1.367)²+(1.4-1.367)²+(1.3-1.367)²]/2 ≈ 0.003
0花瓣宽度(0.2+0.2+0.2)/3 = 0.20(所有样本值相同)
--------------------------------------------------------------------------------------
1花萼长度(6.4+6.9+5.5)/3 ≈ 6.267[(6.4-6.267)²+(6.9-6.267)²+(5.5-6.267)²]/2 ≈ 0.423
1花萼宽度(3.2+3.1+2.3)/3 ≈ 2.867[(3.2-2.867)²+(3.1-2.867)²+(2.3-2.867)²]/2 ≈ 0.163
1花瓣长度(4.5+4.9+4.0)/3 ≈ 4.467[(4.5-4.467)²+(4.9-4.467)²+(4.0-4.467)²]/2 ≈ 0.183
1花瓣宽度(1.5+1.5+1.3)/3 ≈ 1.433[(1.5-1.433)²+(1.5-1.433)²+(1.3-1.433)²]/2 ≈ 0.013
--------------------------------------------------------------------------------------
2花萼长度(6.3+5.8+7.1)/3 ≈ 6.4[(6.3-6.4)²+(5.8-6.4)²+(7.1-6.4)²]/2 ≈ 0.370
2花萼宽度(3.3+2.7+3.0)/3 = 3.0[(3.3-3.0)²+(2.7-3.0)²+(3.0-3.0)²]/2 ≈ 0.090
2花瓣长度(6.0+5.1+5.9)/3 ≈ 5.667[(6.0-5.667)²+(5.1-5.667)²+(5.9-5.667)²]/2 ≈ 0.223
2花瓣宽度(2.5+1.9+2.1)/3 ≈ 2.167[(2.5-2.167)²+(1.9-2.167)²+(2.1-2.167)²]/2 ≈ 0.083
3. 计算似然概率(高斯密度函数)

对新样本特征x=(5.6,2.8,4.9,2.0)x=(5.6, 2.8, 4.9, 2.0)x=(5.6,2.8,4.9,2.0),计算每个特征在3个类别下的似然概率P(x∣类别)P(x|类别)P(x类别),公式:
P(x∣类别)=12πσ2exp⁡(−(x−μ)22σ2) P(x|类别) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right) P(x类别)=2πσ21exp(2σ2(xμ)2)

(1)新样本属于“山鸢尾(0)”的似然概率

逐个特征计算:

  • 花萼长度=5.6
    μ=4.9\mu=4.9μ=4.9σ2=0.04\sigma^2=0.04σ2=0.04
    P(5.6∣0)=12π×0.04exp⁡(−(5.6−4.9)22×0.04)≈10.49exp⁡(−6.125)≈2.04×0.0022≈0.0045P(5.6|0) = \frac{1}{\sqrt{2\pi×0.04}} \exp\left( -\frac{(5.6-4.9)^2}{2×0.04} \right) ≈ \frac{1}{0.49} \exp(-6.125) ≈ 2.04 × 0.0022 ≈ 0.0045P(5.6∣0)=2π×0.041exp(2×0.04(5.64.9)2)0.491exp(6.125)2.04×0.00220.0045

  • 花萼宽度=2.8
    μ=3.233\mu=3.233μ=3.233σ2=0.063\sigma^2=0.063σ2=0.063
    P(2.8∣0)≈12π×0.063exp⁡(−(2.8−3.233)22×0.063)≈1.99×exp⁡(−1.49)≈1.99×0.225≈0.448P(2.8|0) ≈ \frac{1}{\sqrt{2\pi×0.063}} \exp\left( -\frac{(2.8-3.233)^2}{2×0.063} \right) ≈ 1.99 × \exp(-1.49) ≈ 1.99 × 0.225 ≈ 0.448P(2.8∣0)2π×0.0631exp(2×0.063(2.83.233)2)1.99×exp(1.49)1.99×0.2250.448

  • 花瓣长度=4.9
    μ=1.367\mu=1.367μ=1.367σ2=0.003\sigma^2=0.003σ2=0.003
    P(4.9∣0)≈12π×0.003exp⁡(−(4.9−1.367)22×0.003)≈12.91×exp⁡(−2073)≈0P(4.9|0) ≈ \frac{1}{\sqrt{2\pi×0.003}} \exp\left( -\frac{(4.9-1.367)^2}{2×0.003} \right) ≈ 12.91 × \exp(-2073) ≈ 0P(4.9∣0)2π×0.0031exp(2×0.003(4.91.367)2)12.91×exp(2073)0(因特征值与均值差异极大,概率趋近于0)

  • 花瓣宽度=2.0
    因前一个特征概率已趋近于0,整体似然乘积为0,无需继续计算。

(2)新样本属于“变色鸢尾(1)”的似然概率
  • 花萼长度=5.6
    μ=6.267\mu=6.267μ=6.267σ2=0.423\sigma^2=0.423σ2=0.423
    P(5.6∣1)≈12π×0.423exp⁡(−(5.6−6.267)22×0.423)≈0.87×exp⁡(−0.52)≈0.87×0.594≈0.517P(5.6|1) ≈ \frac{1}{\sqrt{2\pi×0.423}} \exp\left( -\frac{(5.6-6.267)^2}{2×0.423} \right) ≈ 0.87 × \exp(-0.52) ≈ 0.87 × 0.594 ≈ 0.517P(5.6∣1)2π×0.4231exp(2×0.423(5.66.267)2)0.87×exp(0.52)0.87×0.5940.517

  • 花萼宽度=2.8
    μ=2.867\mu=2.867μ=2.867σ2=0.163\sigma^2=0.163σ2=0.163
    P(2.8∣1)≈12π×0.163exp⁡(−(2.8−2.867)22×0.163)≈1.24×exp⁡(−0.013)≈1.24×0.987≈1.224P(2.8|1) ≈ \frac{1}{\sqrt{2\pi×0.163}} \exp\left( -\frac{(2.8-2.867)^2}{2×0.163} \right) ≈ 1.24 × \exp(-0.013) ≈ 1.24 × 0.987 ≈ 1.224P(2.8∣1)2π×0.1631exp(2×0.163(2.82.867)2)1.24×exp(0.013)1.24×0.9871.224

  • 花瓣长度=4.9
    μ=4.467\mu=4.467μ=4.467σ2=0.183\sigma^2=0.183σ2=0.183
    P(4.9∣1)≈12π×0.183exp⁡(−(4.9−4.467)22×0.183)≈1.17×exp⁡(−0.51)≈1.17×0.601≈0.703P(4.9|1) ≈ \frac{1}{\sqrt{2\pi×0.183}} \exp\left( -\frac{(4.9-4.467)^2}{2×0.183} \right) ≈ 1.17 × \exp(-0.51) ≈ 1.17 × 0.601 ≈ 0.703P(4.9∣1)2π×0.1831exp(2×0.183(4.94.467)2)1.17×exp(0.51)1.17×0.6010.703

  • 花瓣宽度=2.0
    μ=1.433\mu=1.433μ=1.433σ2=0.013\sigma^2=0.013σ2=0.013
    P(2.0∣1)≈12π×0.013exp⁡(−(2.0−1.433)22×0.013)≈4.37×exp⁡(−12.2)≈4.37×5.5×10−6≈0.000024P(2.0|1) ≈ \frac{1}{\sqrt{2\pi×0.013}} \exp\left( -\frac{(2.0-1.433)^2}{2×0.013} \right) ≈ 4.37 × \exp(-12.2) ≈ 4.37 × 5.5×10^{-6} ≈ 0.000024P(2.0∣1)2π×0.0131exp(2×0.013(2.01.433)2)4.37×exp(12.2)4.37×5.5×1060.000024

  • 似然乘积0.517×1.224×0.703×0.000024≈0.00001070.517 × 1.224 × 0.703 × 0.000024 ≈ 0.00001070.517×1.224×0.703×0.0000240.0000107

(3)新样本属于“维吉尼亚鸢尾(2)”的似然概率
  • 花萼长度=5.6
    μ=6.4\mu=6.4μ=6.4σ2=0.370\sigma^2=0.370σ2=0.370
    P(5.6∣2)≈12π×0.370exp⁡(−(5.6−6.4)22×0.370)≈0.92×exp⁡(−0.865)≈0.92×0.421≈0.387P(5.6|2) ≈ \frac{1}{\sqrt{2\pi×0.370}} \exp\left( -\frac{(5.6-6.4)^2}{2×0.370} \right) ≈ 0.92 × \exp(-0.865) ≈ 0.92 × 0.421 ≈ 0.387P(5.6∣2)2π×0.3701exp(2×0.370(5.66.4)2)0.92×exp(0.865)0.92×0.4210.387

  • 花萼宽度=2.8
    μ=3.0\mu=3.0μ=3.0σ2=0.090\sigma^2=0.090σ2=0.090
    P(2.8∣2)≈12π×0.090exp⁡(−(2.8−3.0)22×0.090)≈1.89×exp⁡(−0.222)≈1.89×0.801≈1.514P(2.8|2) ≈ \frac{1}{\sqrt{2\pi×0.090}} \exp\left( -\frac{(2.8-3.0)^2}{2×0.090} \right) ≈ 1.89 × \exp(-0.222) ≈ 1.89 × 0.801 ≈ 1.514P(2.8∣2)2π×0.0901exp(2×0.090(2.83.0)2)1.89×exp(0.222)1.89×0.8011.514

  • 花瓣长度=4.9
    μ=5.667\mu=5.667μ=5.667σ2=0.223\sigma^2=0.223σ2=0.223
    P(4.9∣2)≈12π×0.223exp⁡(−(4.9−5.667)22×0.223)≈1.06×exp⁡(−1.31)≈1.06×0.270≈0.286P(4.9|2) ≈ \frac{1}{\sqrt{2\pi×0.223}} \exp\left( -\frac{(4.9-5.667)^2}{2×0.223} \right) ≈ 1.06 × \exp(-1.31) ≈ 1.06 × 0.270 ≈ 0.286P(4.9∣2)2π×0.2231exp(2×0.223(4.95.667)2)1.06×exp(1.31)1.06×0.2700.286

  • 花瓣宽度=2.0
    μ=2.167\mu=2.167μ=2.167σ2=0.083\sigma^2=0.083σ2=0.083
    P(2.0∣2)≈12π×0.083exp⁡(−(2.0−2.167)22×0.083)≈1.38×exp⁡(−0.168)≈1.38×0.845≈1.166P(2.0|2) ≈ \frac{1}{\sqrt{2\pi×0.083}} \exp\left( -\frac{(2.0-2.167)^2}{2×0.083} \right) ≈ 1.38 × \exp(-0.168) ≈ 1.38 × 0.845 ≈ 1.166P(2.0∣2)2π×0.0831exp(2×0.083(2.02.167)2)1.38×exp(0.168)1.38×0.8451.166

  • 似然乘积0.387×1.514×0.286×1.166≈0.387×1.514≈0.586;0.586×0.286≈0.168;0.168×1.166≈0.1960.387 × 1.514 × 0.286 × 1.166 ≈ 0.387 × 1.514 ≈ 0.586;0.586 × 0.286 ≈ 0.168;0.168 × 1.166 ≈ 0.1960.387×1.514×0.286×1.1660.387×1.5140.5860.586×0.2860.1680.168×1.1660.196

4. 计算后验概率并预测

后验概率 = 先验概率 × 似然概率乘积(因先验概率相同,直接比较似然乘积):

  • 山鸢尾(0):0.333×0≈00.333 × 0 ≈ 00.333×00
  • 变色鸢尾(1):0.333×0.0000107≈0.00000360.333 × 0.0000107 ≈ 0.00000360.333×0.00001070.0000036
  • 维吉尼亚鸢尾(2):0.333×0.196≈0.0650.333 × 0.196 ≈ 0.0650.333×0.1960.065

预测结果:维吉尼亚鸢尾(类别2),因其后验概率最大。

5、关键结论

  1. 连续特征处理:高斯朴素贝叶斯通过假设特征服从高斯分布,用均值和方差拟合分布,再通过密度函数计算似然概率,巧妙解决了连续特征的概率计算问题。
  2. 分类逻辑:即使先验概率相同,特征与类别均值的“匹配度”(似然概率)也会主导分类结果(如新样本花瓣长度更接近维吉尼亚鸢尾的均值)。

通过完整案例可见,高斯朴素贝叶斯对连续特征的处理核心是“分布假设+概率密度计算”,适用于特征近似服从正态分布的场景。

五、优缺点与适用场景

  • 优点:计算快、适合高维数据(如文本)、对小样本友好;
  • 缺点:依赖“特征独立”假设(现实中常不成立)、对特征分布敏感;
  • 适用场景:垃圾邮件识别、文本分类、情感分析、推荐系统等。

通过补充似然概率的计算细节可见,朴素贝叶斯的核心是根据特征类型(离散/连续)选择合适的概率计算方式,结合平滑处理避免零概率问题,最终通过概率比较实现分类。

http://www.dtcms.com/a/292832.html

相关文章:

  • linux: tar解压之后属主和属组不是当前用户问题
  • 2025人形机器人动捕技术研讨会即将于7月31日盛大开启
  • 阿里巴巴视觉算法面试30问全景精解
  • 知识库搭建之Meilisearch‘s 搜索引擎-创建搜索引擎项目 测评-东方仙盟测评师
  • 数据降噪/生物信号强化/缓解 dropout,深度学习模型 SUICA 实现空间转录组切片中任一位置基因表达的预测
  • [LLM]Synthetic Visual Genome
  • GNU到底是什么,与Unix和Linux是什么关系
  • 链表经典算法题
  • web复习
  • 网络原理 HTTP 和 HTTPS
  • kafka查看消息的具体内容 kafka-dump-log.sh
  • Python笔记完整版
  • 扇形区域拉普拉斯方程傅里叶解法2
  • 一款功能全面的文体场所预约小程序
  • Grails(Groovy)框架抛出NoHandlerFoundException而不是返回404 Not Found
  • 【多线程篇21】:深入浅出理解Java死锁
  • 《Uniapp-Vue 3-TS 实战开发》自定义预约时间段组件
  • 7.22总结mstp,vrrp
  • WebSocket心跳机制实现要点
  • 京东AI投资版图扩张:具身智能与GPU服务器重构科研新范式
  • 小鹏汽车视觉算法面试30问全景精解
  • 学习游戏制作记录(战斗系统简述以及击中效果)7.22
  • 为什么使用扩展坞会降低显示器的最大分辨率和刷新率
  • 智能泵房监控系统:物联网应用与智能管理解决方案
  • 【观察】维谛技术(Vertiv)“全链智算”:重构智算中心基础设施未来演进范式
  • 如何编译RustDesk(Unbuntu 和Android版本)
  • Cookies 详解及其与 Session 的协同工作
  • AWS OpenSearch 搜索排序常见用法
  • 2️⃣tuple(元组)速查表
  • C语言面向对象编程