当前位置：首页 > news >正文

贝叶斯分类（Bayes Classify）

news 2025/9/1 6:27:45

一. 核心思想

贝叶斯分类是一类基于贝叶斯定理（Bayes' Theorem）和概率统计的分类算法，核心思想是 “通过已知的先验概率，结合数据的似然性，计算后验概率，最终将样本归为后验概率最高的类别”。它在机器学习、模式识别等领域应用广泛（如垃圾邮件过滤、疾病诊断、文本分类等），尤其适合处理 “样本量较小” 或 “需要利用先验知识” 的场景。

二. 理论基础

1. 定义：

对于二分类或者多分类问题，若用C表示“类别”，用X表示“样本特征”，则贝叶斯定理公式为

$P(C|X)=\frac{P(XC)}{P(X)}=\frac{P(X|C)P(C)}{P(X))}$

其中每部分含义如下：

后验概率P(C\|X)	已知样本特征 X 时，样本属于类别 C 的概率（“看到特征后，判断类别的置信度”）
似然性P(X\|C)	已知类别为 C 时，样本出现特征 X 的概率（“类别为 C 的样本，恰好具备这些特征的可能性”）
先验概率 P(C)	未看样本特征时，类别 C 本身的概率
证据因子 P(X)	样本特征 X 出现的总概率（与类别无关，仅用于 “归一化”，确保后验概率总和为 1)

2. 分类逻辑：

贝叶斯分类的核心规则是 “最大后验概率准则”：对一个待分类样本 X，计算它属于所有可能类别的后验概率，比如对于 $C_1,C_2,..,C_k$ 这些类别分别计算 $P(C_1|X),P(C_2|X),...,P(C_k|X)$ ，最终将 X 归为后验概率最大的类别。

由于P(X)对所有类别相同，实际计算时可简化为：

$argmax_C P(C|X) = argmax_c [P(X|C)*P(C)]$

三. 经典算法--朴素贝叶斯（Native Bayes）

1.问题背景：

直接应用贝叶斯定理时，若样本特征 X 是 “多维度特征”（如文本分类中，X 包含 “是否含‘中奖’”“是否含‘点击’” 等多个特征），计算P(X|C)会面临 “维度灾难”—— 需统计所有特征组合的概率，数据量不足时根本无法实现。

2. 核心思想：

引入“特征条件独立”的核心假设，也就是朴素贝叶斯的 “朴素（Naive）” 体现在：假设在已知类别的前提下，样本的各个特征之间是相互独立的。
即对于类别 C 和多维度特征 $X=(X_1,X_2,..,X_n)$ （ $X_i$ 是第 i 个特征），有：

通过引入这个假设，大幅简化了计算，也就是无需统计 “特征组合的概率”，只需单独统计 “每个特征在某类别下的概率” 即可。

3. 文本分类之”垃圾邮件过滤“

设类别C1为垃圾邮件，C2为正常邮件，X为邮件中的关键词，朴素贝叶斯分类过程如下：

a. 数据预处理：将文本转为特征，每个邮件对应一个向量X，向量的每个维度代表一个关键词；

b. 计算先验概率P(C)：根据训练集统计类别概率，对于第k类计算如下：

$P(C_K)=\frac{num(C_K)}{total}$

c. 计算似然性P(X|C)：统计类别k中特征Xi出现的概率，计算如下：

$P(X_I=1|C_K)=\frac{nums(X_i in C_k+1))}{nums(C_k+2)}$

注意：这里使用了拉普拉斯平滑，避免概率为0，分母加2是因为这里是个二分类问题。

d.计算后验概率并分类：对于测试邮件X，分别计算P(C1|X)、P(C2|X)，若前者大，则判定为垃圾邮件，否则为正常邮件。

四.朴素贝叶斯常见变体

类型

使用特征

核心假设

高斯朴素贝叶斯

连续型特征

假设 “类别k下的特征Xi服从高斯分布（正态分布）”，通过样本均值和方差估算似然函数

多项式朴素贝叶斯

离散型特征

假设 “类别k下的特征Xi 服从多项式分布”，常用于 “特征是计数数据” 的场景

伯努利朴素贝叶斯

二值离散特征

假设 “类别k下的特征Xi服从伯努利分布”，仅关注 “特征是否出现”（而非出现次数）

五.优缺点

1. 优点

计算高效：仅需统计先验概率和似然性，复杂度低，适合大规模数据或实时场景；
数据需求少：依赖先验知识，小样本下也能工作（尤其适合样本难以获取的场景）；
可解释性强：结果是 “类别概率”，能直观体现分类的置信度；
抗过拟合能力强：假设简单，不易过度依赖训练集的噪声数据。

2. 缺点

“特征独立” 假设理想化：实际场景中，特征往往存在相关性（如 “邮件含‘中奖’和‘点击链接’高度相关”），会导致似然性计算不准，影响分类效果；
对先验概率敏感：若先验概率统计偏差大（如训练集类别分布与真实场景差异大），会严重影响后验概率的准确性；
无法处理 “特征值为 0” 的极端情况：需依赖拉普拉斯平滑等方法修正，否则可能出现概率为 0 的情况，导致分类失效。

----- 以上为本人学习机器学习这门课总结出的一些知识点，有错误或者疑问可以评论区交流，欢迎指正！！！

http://www.dtcms.com/a/359646.html

相关文章：

【嵌入式DIY实例】-空中鼠标

Ubuntu安装NVIDIA显卡驱动

C#基础（③CMD进程）

【C2000】C2000的国产替代现状与技术关键路径

unity3d 中 R3 实际使用安装方法

吴恩达机器学习作业十 PCA主成分分析

【量化回测】backtracker整体架构和使用示例

arm容器启动spring-boot端口报错

linux 内核 - 常见的文件系统介绍

【K8s】整体认识K8s之存储--volume

shell脚本（略）

【Flink】并行度的设置

nrf52840 flash 分区

3【鸿蒙/OpenHarmony/NDK】如何在鸿蒙应用中使用NDK?

线阵相机和镜头选型案例介绍

【不懂就问】-手机相关学习

打开多个Excel文件后快速关闭所有的文档，并且退出Excel应用

Docker一小时快速上手（附报错解决方式）

并发编程——11 并发容器（Map、List、Set）实战及其原理分析

deep seek的对话记录如何导出

CICD实战(1) - 使用Arbess+GitPuk+Docker快速实现项目打包构建、docker部署

视频理解与行为识别全景综述

计算机网络：（十六）TCP 的运输连接管理

传统数据库out啦！KINGBASE ES V9R1C10 开启国产数据库“修仙”新纪元！

Redis六大常见命令详解：从set/get到过期策略的全方位解析

大模型推理技术解析

AI热点周报（8.24~8.30）：Grok 2.5开源，OpenAI Realtime正式商用，Meta或与OpenAI或Google合作？

学习记录（二十二）--Overleaf中生成的PDF左上角1.5em问题

【stm32】对射式红外传感器计次以及旋转编码器计次

基于单片机智能大棚/温室大棚/智慧农业/智能栽培种植系统/温湿度控制