当前位置: 首页 > news >正文

贝叶斯分类(Bayes Classify)

一. 核心思想

贝叶斯分类是一类基于贝叶斯定理(Bayes' Theorem)和概率统计的分类算法,核心思想是 “通过已知的先验概率,结合数据的似然性,计算后验概率,最终将样本归为后验概率最高的类别”。它在机器学习、模式识别等领域应用广泛(如垃圾邮件过滤、疾病诊断、文本分类等),尤其适合处理 “样本量较小” 或 “需要利用先验知识” 的场景。

二. 理论基础

1. 定义:

对于二分类或者多分类问题,若用C表示“类别”,用X表示“样本特征”,则贝叶斯定理公式为

                                P(C|X)=\frac{P(XC)}{P(X)}=\frac{P(X|C)P(C)}{P(X))}

其中每部分含义如下:

后验概率P(C|X)已知样本特征 X 时,样本属于类别 C 的概率(“看到特征后,判断类别的置信度”)

似然性P(X|C)

已知类别为 C 时,样本出现特征 X 的概率(“类别为 C 的样本,恰好具备这些特征的可能性”)

先验概率

P(C)

未看样本特征时,类别 C 本身的概率

证据因子

P(X)

样本特征 X 出现的总概率(与类别无关,仅用于 “归一化”,确保后验概率总和为 1)

2. 分类逻辑:

贝叶斯分类的核心规则是 “最大后验概率准则”: 对一个待分类样本 X,计算它属于所有可能类别的后验概率,比如对于 C_1,C_2,..,C_k这些类别分别计算​ P(C_1|X),P(C_2|X),...,P(C_k|X),最终将 X 归为后验概率最大的类别。

由于P(X)对所有类别相同,实际计算时可简化为:

                        argmax_C P(C|X) = argmax_c [P(X|C)*P(C)]

三. 经典算法--朴素贝叶斯(Native Bayes)

1.问题背景:

直接应用贝叶斯定理时,若样本特征 X 是 “多维度特征”(如文本分类中,X 包含 “是否含‘中奖’”“是否含‘点击’” 等多个特征),计算P(X|C)会面临 “维度灾难”—— 需统计所有特征组合的概率,数据量不足时根本无法实现。

2. 核心思想:

引入“特征条件独立”的核心假设,也就是朴素贝叶斯的 “朴素(Naive)” 体现在:假设在已知类别的前提下,样本的各个特征之间是相互独立的
即对于类别 C 和多维度特征 X=(X_1,X_2,..,X_n)X_i是第 i 个特征),有:

通过引入这个假设,大幅简化了计算,也就是无需统计 “特征组合的概率”,只需单独统计 “每个特征在某类别下的概率” 即可。

3. 文本分类之”垃圾邮件过滤“

设类别C1为垃圾邮件,C2为正常邮件,X为邮件中的关键词,朴素贝叶斯分类过程如下:

a. 数据预处理:将文本转为特征,每个邮件对应一个向量X,向量的每个维度代表一个关键词;

b. 计算先验概率P(C):根据训练集统计类别概率,对于第k类计算如下:

                                        ​​​​​​​        P(C_K)=\frac{num(C_K)}{total}

c. 计算似然性P(X|C):统计类别k中特征Xi出现的概率,计算如下:

        ​​​​​​​        ​​​​​​​        ​​​​​​​        P(X_I=1|C_K)=\frac{nums(X_i in C_k+1))}{nums(C_k+2)}

注意:这里使用了拉普拉斯平滑,避免概率为0,分母加2是因为这里是个二分类问题。

d.计算后验概率并分类:对于测试邮件X,分别计算P(C1|X)、P(C2|X),若前者大,则判定为垃圾邮件,否则为正常邮件。

四.朴素贝叶斯常见变体

类型使用特征核心假设
高斯朴素贝叶斯连续型特征假设 “类别k下的特征Xi服从高斯分布(正态分布)”,通过样本均值和方差估算似然函数
多项式朴素贝叶斯离散型特征假设 “类别k下的特征Xi 服从多项式分布”,常用于 “特征是计数数据” 的场景
伯努利朴素贝叶斯
二值离散特征
假设 “类别k下的特征Xi服从伯努利分布”,仅关注 “特征是否出现”(而非出现次数)

五.优缺点

1. 优点

  • 计算高效:仅需统计先验概率和似然性,复杂度低,适合大规模数据或实时场景;
  • 数据需求少:依赖先验知识,小样本下也能工作(尤其适合样本难以获取的场景);
  • 可解释性强:结果是 “类别概率”,能直观体现分类的置信度;
  • 抗过拟合能力强:假设简单,不易过度依赖训练集的噪声数据。

2. 缺点

  • “特征独立” 假设理想化:实际场景中,特征往往存在相关性(如 “邮件含‘中奖’和‘点击链接’高度相关”),会导致似然性计算不准,影响分类效果;
  • 对先验概率敏感:若先验概率统计偏差大(如训练集类别分布与真实场景差异大),会严重影响后验概率的准确性;
  • 无法处理 “特征值为 0” 的极端情况:需依赖拉普拉斯平滑等方法修正,否则可能出现概率为 0 的情况,导致分类失效。

----- 以上为本人学习机器学习这门课总结出的一些知识点,有错误或者疑问可以评论区交流,欢迎指正!!!

http://www.dtcms.com/a/359646.html

相关文章:

  • 【嵌入式DIY实例】-空中鼠标
  • Ubuntu安装NVIDIA显卡驱动
  • C#基础(③CMD进程)
  • 【C2000】C2000的国产替代现状与技术关键路径
  • unity3d 中 R3 实际使用 安装方法
  • 吴恩达机器学习作业十 PCA主成分分析
  • 【量化回测】backtracker整体架构和使用示例
  • arm容器启动spring-boot端口报错
  • linux 内核 - 常见的文件系统介绍
  • 【K8s】整体认识K8s之存储--volume
  • shell脚本(略)
  • 【Flink】并行度的设置
  • nrf52840 flash 分区
  • 3【鸿蒙/OpenHarmony/NDK】如何在鸿蒙应用中使用NDK?
  • 线阵相机和镜头选型案例介绍
  • 【不懂就问】-手机相关学习
  • 打开多个Excel文件后快速关闭所有的文档,并且退出Excel应用
  • Docker一小时快速上手(附报错解决方式)
  • 并发编程——11 并发容器(Map、List、Set)实战及其原理分析
  • deep seek的对话记录如何导出
  • CICD实战(1) - 使用Arbess+GitPuk+Docker快速实现项目打包构建、docker部署
  • 视频理解与行为识别全景综述
  • 计算机网络:(十六)TCP 的运输连接管理
  • 传统数据库out啦!KINGBASE ES V9R1C10 开启国产数据库“修仙”新纪元!
  • Redis六大常见命令详解:从set/get到过期策略的全方位解析
  • 大模型推理技术解析
  • AI热点周报(8.24~8.30):Grok 2.5开源,OpenAI Realtime正式商用,Meta或与OpenAI或Google合作?
  • 学习记录(二十二)--Overleaf中生成的PDF左上角1.5em问题
  • 【stm32】对射式红外传感器计次以及旋转编码器计次
  • 基于单片机智能大棚/温室大棚/智慧农业/智能栽培种植系统/温湿度控制