当前位置：首页 > news >正文

机器学习算法——朴素贝叶斯和特征降维

news 2025/9/15 17:32:20

一、常见概率计算

朴素贝叶斯算法是利用概率值进行分类的一种机器学习算法

概率：一种事情发生的可能性，取值在[0,1]之间
- 条件概率：表示事件A在另外一个事件B已经发生的条件下的发生概率 $P (A ∣ B)$
- 联合概率：表示多个条件同时成立的概率 $P (A B) = P (A) * P (B ∣ A) = P (B) * P (A ∣ B)$
- 联合概率+条件概率
- 相互独立：如果P(A,B)=P(A)P(B)，则称事件A与事件B相互独立

二、朴素贝叶斯算法

贝叶斯公式： $P(C|W)=\frac{P(W|C)P(C)}{P(W)}$
- $P (C)$ 表示 $C$ 出现的概率，一般是目标值
- $P (W ∣ C)$ 表示 $C$ 条件下 $W$ 出现的概率
- $P (W)$ 表示W出现的概， $W$ 一般是特征
朴素贝叶斯在贝叶斯基础上增加：特征条件独立假设，即：特征之间是互为独立的，则 $P(W_1,W_2|C)=P(W_1|C)*P(W_2|C)$
为了避免概率值为0（分母不能为0），我们需要在分子，分母分别加上一个数值，这就是拉普拉斯平滑系数的作用

$P(F_1|C)=\frac{N_i+\alpha}{N+\alpha m}$
- $\alpha$ 是拉普拉斯平滑系数，一般指定为1
- $N_i$ 是 $F_1$ 中符合条件 $C$ 的样本数量
- $N$ 是表示条件 $C$ 下所有样本的总数
- $m$ 表示所有独立样本的总数

API

sklearn.naive_bayes.MultinomialNB(alpha=1.0)
- 朴素贝叶斯分类
-alpha：拉普拉斯平滑系数

思路：使用jieba模块进行词频统计，然后进行机器学习
流程
1. 获取数据
2. 数据基本处理
  - 处理数据y
  - 加载停用词
  - 处理数据x把文档分词
  - 统计词频矩阵作为句子特征
3. 准备训练集测试集
4. 模型训练
  - 实例化贝叶斯台南佳拉普拉斯平滑系数
  - 模型预测
5. 模型评估

三、特征降维

为什么要进行特征降维：特征对训练模型时是非常重要的，用于训练的数据集包含一些不重要的特征，可能导致模型泛化性能不佳
特征降维的目的：指在某些特定条件下，降低特征个数；目前阶段常用的方法是低方差过滤法，PCA（主成分分析）降维法，相关系数（皮尔逊相关系数，斯皮尔曼相关系数）

1.低方差过滤法

概念：指的是删除方差低于某些阈值的一些特征
- 特征方差小：特征值的波动范围小，包含的信息少，模型很难学习到信息
- 特征方差大：特征值的波动范围大，包含的信息相对丰富，便于模型学习
API

sklearn.feature_seleciton.VarianceThreshold(threshold=0.0)

实例化对象用于删除所有低方差特征

variance_obj.fit_transform(X)

X:numpy array格式的数据[n_samples,n_features]

返回值：训练集差异低于threshold的特征将会被删除（默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征）

2.主成分分析PCA

注意：在本身特征非常多的时候，不建议直接使用PCA进行处理，可以先使用低方差过滤法，过滤之后使用PCA进行处理

概念：PCA通过对数据维数进行压缩，尽可能降低原数据的维数（复杂度）损失少量信息，在此过程中可能会舍弃原有数据，创造新的变量
API

sklearn.decomposition.PCA(n_components=None)将数据分解为较低维数空间
- n_components:小数表示保留百分之多少的信息；整数表示减少到多少特征
- mypcaobj.fit_transform(X)
- 返回值：转换后指定维度的array

3.相关系数

独立的两个变量一定是不相关的，不相关的两个变量不一定是独立的

（1）基础

相关系数（ $r$ ）：反应特征列之间（变量之间）密切相关程度的统计指标（两个变量之间的线性相关性）
常见的两个相关系数：皮尔逊相关系数，斯皮尔曼相关系数
$\leq r \leq +1$ ：当 $r > 0$ 时，表示两变量正相关， $r < 0$ 时，两变量负相关； $∣ r ∣ = 1$ 表示两变量完全相关， $∣ r ∣ = 0$ 时表示两变量间无相关关系； $0 < ∣ r ∣ < 1$ 表示两变量存在一定程度的相关

且 $∣ r ∣$ 越接近于1，两变量间线性关系越密切； $∣ r ∣$ 越接近于0，表示两变量的线性关系相关越弱
一般可按三级划分： $∣ r ∣ < 0.4$ 为低度相关； $\leq r \leq 0.7$ 为显著性相关； $0.7\leq|r|<1$ 为高度线性相关

（2）皮尔逊相关系数

$r=\frac{n\sum xy-\sum x\sum y}{\sqrt{n\sum x^2-(\sum x)^2}\sqrt{n\sum y^2-(\sum y)^2}}$

API

from scipy.stats import pearsonr

（3）斯皮尔曼相关系数

$RankIC=1-\frac{6\sum d_i^2}{n(n^2-1)}$

n为等级个数，d为成对变量的等级差数
API

from scipy.stats import spearmanr

文章转载自：

http://TsYVeYfN.wqkfm.cn
http://CWFME1VO.wqkfm.cn
http://PJItjK9C.wqkfm.cn
http://tN3kYdmb.wqkfm.cn
http://lF7MWkC2.wqkfm.cn
http://6BNXIPlw.wqkfm.cn
http://wulAvJAI.wqkfm.cn
http://AYP7UOQV.wqkfm.cn
http://Ap37hJ1x.wqkfm.cn
http://7IZuhFoh.wqkfm.cn
http://RoVJDwp1.wqkfm.cn
http://NDrFN8B4.wqkfm.cn
http://KmzY5yhL.wqkfm.cn
http://7TWbnzVT.wqkfm.cn
http://JRFbT4SY.wqkfm.cn
http://2HUT41BU.wqkfm.cn
http://T560TCBC.wqkfm.cn
http://nhzLC4WR.wqkfm.cn
http://ohWz96Rz.wqkfm.cn
http://9E1HBqCY.wqkfm.cn
http://POdoUrrq.wqkfm.cn
http://mlxF4kp7.wqkfm.cn
http://ZErsadPS.wqkfm.cn
http://UO6PaxTo.wqkfm.cn
http://AMUisl5I.wqkfm.cn
http://MGAHxscl.wqkfm.cn
http://0VBZ8Nas.wqkfm.cn
http://J6KUXMsR.wqkfm.cn
http://ot3Wm7O8.wqkfm.cn
http://HOvXshln.wqkfm.cn

http://www.dtcms.com/a/246664.html

相关文章：

名称深度学习（监督学习） Iteration 一次 mini-batch 前向+反向传播更新 Epoch 所有数据集训练一遍。这两个概念不一样吗？

图像分割技术：像素级的精准识别（superior哥深度学习系列第12期）

Vue3项目与桌面端（C++）通过Websocket 对接接口方案实现

GPIO简介（GPIO输出）

Metastore 架构示意图和常用 SQL

HINet: Half Instance Normalization Network for Image Restoration论文阅读

使用Optimization tool优化后禁用windows更新批量的脚本

前端加密当日

怎样下载某个SCI期刊的endnote style？答：直接去endnote官网搜索期刊名称并下载即可

面向对象设计模式简述（1.创建型模式）

16、企业预算管理（Budget）全流程解析：从预算编制到预算控制

git merge合并分支push报错：Your branch is ahead of ‘xxx‘ by xx commits.

【unitrix】1.2 unitrix 物理量计算库（lib.rs）

AIAgent,Prompt,MCP是什么？

AUTOSAR图解==＞AUTOSAR_TR_FrancaIntegration

【测试开发】数据类型篇-迭代器和生成器

【二分模版------左闭右闭】

Python爬虫实战：研究AutobahnPython相关技术

亚马逊关闭Posts：站内社交梦碎，卖家流量策略急待重构

【有源医疗器械检测的常见问题、整改方法、送检了解】

＜自用文儿腾讯云 VPS ＞ Ubuntu 24 系统，基本设置

2025【证券从业】时间事件

JavaScript 原型（Prototype）详解

C#调用C++ 结构体方法

mapbox高阶，使用mbview发布mbtiles数据为矢量切片服务，并加载

第五节类型系统进阶-类型守卫（Type Guard）的实现方式

ubuntu22.04使用系统默认的中文输入法，打字只输入英文字符怎么操作才能打字中文

网络安全：OWASP防护守则

Gartner《工业边缘计算Reference Architecture》学习心得

[vela os_4] 处理器间通信（IPC）| 内存管理