当前位置：首页 > news >正文

【机器学习基础】朴素贝叶斯算法详解：从原理到实战

news 2025/8/26 6:36:02

一、贝叶斯方法简介

贝叶斯方法源于18世纪英国数学家托马斯·贝叶斯（Thomas Bayes）提出的“逆概率”问题。其核心思想是通过观测数据来更新对某个假设的信念。

正向概率 vs 逆向概率：

正向概率：已知模型参数，求观测数据的概率。

逆向概率：已知观测数据，推断模型参数或隐藏状态。

贝叶斯公式：

其中：

P(A|B) 是后验概率，P(A)是先验概率，P(B|A)是似然概率，P(B)是证据因子。

二、朴素贝叶斯算法

朴素贝叶斯是一种基于贝叶斯定理的分类算法，其“朴素”在于假设所有特征之间相互独立。

1. 拼写纠正：

用户输入一个词 D，我们想找出最可能的正确词 h：

𝑃(ℎ∣𝐷)∝𝑃(ℎ)⋅𝑃(𝐷∣ℎ)P(h∣D)∝P(h)⋅P(D∣h)

P(h)：词 h 出现的先验概率（如语料库中的频率）

P(D|h)：正确词为 h时输入为 $D$ 的概率（如编辑距离）

2. 垃圾邮件分类：

将邮件 D分为垃圾邮件（h+）或正常邮件（h-）：

𝑃(ℎ+∣𝐷)=𝑃(ℎ+)⋅𝑃(𝐷∣ℎ+)𝑃(𝐷)P(h+∣D)=P(D)P(h+)⋅P(D∣h+)

在朴素假设下：

𝑃(𝐷∣ℎ+)=𝑃(𝑑1∣ℎ+)⋅𝑃(𝑑2∣ℎ+)⋅…⋅𝑃(𝑑𝑛∣ℎ+)P(D∣h+)=P(d1∣h+)⋅P(d2∣h+)⋅…⋅P(dn∣h+)

三、三种常见的朴素贝叶斯变体

1. 多项式朴素贝叶斯（MultinomialNB）：

适用场景：离散特征，如文本分类（词频统计）

实现方式：from sklearn.naive_bayes import MultinomialNB

2. 高斯朴素贝叶斯（GaussianNB）：

适用场景：连续特征，符合正态分布

实现方式：from sklearn.naive_bayes import GaussianNB

3. 伯努利朴素贝叶斯（BernoulliNB）：

适用场景：二值离散特征（0/1，出现/未出现）

实现方式：from sklearn.naive_bayes import BernoulliNB

四、实战示例：手写数字识别

使用 sklearn 中的手写数字数据集进行朴素贝叶斯分类：

五、总结

朴素贝叶斯是一种简单高效、适合高维数据的分类算法。

其“条件独立”假设在现实中往往不成立，但在文本分类等领域表现优异。

根据特征类型选择不同的贝叶斯变体（多项式、高斯、伯努利）是关键。

查看全文

http://www.dtcms.com/a/349569.html

机器学习-朴素贝叶斯

机器学习采样方法深度详解：过采样、下采样与混合采样（附完整代码、可视化与多场景实战）

机器学习：贝叶斯派

【Linux | 网络】多路转接IO之poll

编写Linux下usb设备驱动方法：usb设备驱动实现流程

AI-调查研究-60-机器人机械臂技术发展趋势详解：工业、服务与DIY三大阵营全解析

rabbitmq集群

基于RFM模型的客户群体大数据分析及用户聚类系统的设计与实现

AI+数据库：国内DBA职业发展与国产化转型实践

Torch入门小知识点--总结性语言

CSS基础学习第一天

The Google File System 详解

【Docker基础】Docker-compose进阶配置：健康检查与服务就绪

一、添加Viewport3DX，并设置相机、灯光

Java-包装类

深度学习-----《PyTorch神经网络高效训练与测试：优化器对比、激活函数优化及实战技巧》

【数据结构】栈和队列——队列

向量库Qdrant vs Milvus 系统详细对比

线性回归入门：从原理到实战的完整指南

数据结构——线性表（链表，力扣中等篇，技巧型）

Postman 模拟mcp tool调用过程

【数据结构】顺序表详解

Flink hop window（滑动窗口）详解

leetcode 498. 对角线遍历中等

Linux下的软件编程——网络编程（http）

C++14 到 C++20 全面解析：语言新特性、标准库演进与实战案例

【二叉树 - LeetCode】617. 合并二叉树

[QMT量化交易小白入门]-八十三、8月因为通信行业，QMT平台ETF轮动策略年化达到了168.56%

降本增效：基于 JavaScript 的 AI 编程 IDE 上下文压缩优化方案

CloudBase云开发MCP + CodeBuddy IDE：打造智能化全栈理财助手的完整实践