当前位置：首页 > news >正文

机器学习算法常用算法

news 2025/10/27 7:52:10

一.监督学习

决策树

决策树是一种直观观、可解释性强的监督学习算法，因结构类似 “树” 而得名，广泛用于分类和回归任务。其核心是通过对数据特征的逐步划分，将复杂问题拆解为简单子问题，最终得到清晰的决策规则。

决策树由根节点（初始特征）、内部节点（中间特征）、叶节点（最终输出：类别或数值）和分支（特征取值对应的划分规则）组成。

构建决策树

从根节点开始，计算所有特征的 “信息增益”（或基尼系数、MSE），选择最优特征作为当前节点。
按该特征的不同取值，将数据集划分为若干子数据集，每个取值对应一个分支。
对每个子数据集递归执行上述步骤，直至满足停止条件：
- 子数据集中所有样本属于同一类别（分类）或误差小于阈值（回归）；
- 没有更多特征可划分；
- 子数据集样本数小于最小阈值（避免过拟合）。

以 “银行贷款审批” 为例，决策树可通过客户的特征（如收入、信用评分、工作年限等）自动生成审批规则，直观且可解释。以下是具体案例：

银行需根据客户的 3 个特征决定是否批准贷款：

特征 1：月收入（高 / 中 / 低，高 = 月收入 > 2 万，中 = 5k~2 万，低 < 5k）
特征 2：信用评分（优 / 良 / 差，优 > 700，良 = 600~700，差 < 600）
特征 3：工作年限（长 / 短，长≥3 年，短 < 3 年）

随机森林

随机森林是一种基于决策树的集成学习方法，依赖带标签的训练数据（即输入特征与对应的输出标签）进行训练，适用于分类和回归等监督学习任务。

背景：由于决策树(DT)会产生过拟合现象，导致泛化能力变弱，美国贝尔实验室大牛采用随机森林(RF)投票机制来改善决策树

随机的含义:
1, 对样本进行随机, 样本的个数是一样的
2, 对特征进行随机,特征数是一样的

随机森林的工作流程：

数据预处理：对原始数据进行清洗和标准化，以确保算法的有效运行。
自助采样：从原始数据集中通过自助采样的方式抽取多个不同的训练数据集。自助采样允许数据集中的样本重复出现，这意味着每个训练集的大小与原始数据集相同，但包含一些重复的样本。
特征随机选择：在每棵树的每个分裂节点上，随机选择一部分特征，而不是考虑所有可能的特征。这一步进一步增加了模型的多样性，并有助于减少过拟合。
决策树构建：使用每个训练数据集构建决策树，直到每个树达到其最大深度或达到其他停止条件。
预测和聚合：对于分类问题，每棵树给出一个预测，最终的预测结果是所有树预测结果的多数投票；对于回归问题，则是所有树预测结果的平均值。

支持向量机

支持向量机（SVM，Support Vector Machine）是一种经典的监督学习算法，核心作用是在特征空间中找到最优的分类超平面，实现对数据的精准分类，同时也可通过扩展用于回归任务。它在小样本、高维数据（如文本分类）中表现尤为出色，是机器学习中的 “经典利器”。

1.当两类样本能被一个超平面完美分隔（线性可分）时，SVM 的目标是找到 “最优超平面”：

分隔性：超平面能将两类样本完全分开（如正类在超平面一侧，负类在另一侧）。
最大间隔：超平面到两侧最近样本的距离（间隔）最大。
- 直观理解：想象两类样本分布在一条直线两侧，SVM 会找一条 “正中间” 的直线，让这条直线到两边最近的点距离最大 —— 这样即使新样本有轻微扰动，也不容易被误分类，模型更稳定。
- 支持向量：距离超平面最近的那些样本点（正是这些点决定了超平面的位置，其他样本对超平面无影响），这也是 “支持向量机” 名称的由来。

2.现实中数据往往线性不可分，此时 SVM 通过 “软间隔” 机制允许少量样本被误分类，核心是：

放松 “完全分隔” 的要求，允许部分样本落在间隔内甚至超平面另一侧。
引入 “惩罚系数 C”：C 越大，对误分类样本的惩罚越重，模型越倾向于严格分隔（可能过拟合）；C 越小，允许更多误分类，模型更宽松（可能欠拟合）。

3.当数据用线性超平面无法分隔（如样本呈环形分布），SVM 的解决方案是：

低维到高维映射：将原始低维特征空间的数据映射到更高维空间，使原本非线性可分的数据在高维空间中线性可分。例如：二维平面中环形分布的样本，映射到三维空间后可能变成线性可分的。
核函数（Kernel Function）：直接在低维空间计算高维空间的内积（避免高维映射的计算爆炸）。常用核函数：
- 线性核（Linear Kernel）：适用于线性可分数据，等价于原始 SVM。
- 径向基核（RBF Kernel）：最常用，能处理大部分非线性数据（通过调节参数 σ 控制映射后的复杂度）。
- 多项式核（Polynomial Kernel）：适用于特征间有多项式关系的数据。

KNN（K 近邻算法）

KNN 属于 “懒惰学习”，核心特点是 **“不训练模型，只存储数据”**：

训练阶段几乎无计算成本，仅需存储所有训练样本，无需像逻辑回归那样拟合参数、像决策树那样拆分节点。
预测阶段才进行核心计算（算距离、找邻居、投票 / 平均），且预测速度随训练数据量增加而变慢（需对比所有样本）。

KNN 算法的核心作用是通过 “找相似邻居” 来分类或回归，本质是用已知样本的信息推断未知样本，比如根据用户的历史消费行为（邻居）判断新用户是否会购买商品。

二.无监督学习

K - 均值（K-Means）聚类算法

K-Means 是机器学习中最经典的无监督聚类算法，核心作用是将无标签的数据自动划分成 K 个 “相似” 的群体（簇），比如根据用户消费习惯划分客户群体、根据图像像素特征聚类相似图片。无法直接用于分类，但可以进行辅助分类任务。

1. 准备阶段：确定 K 值与预处理

确定 K 值：K 是用户预先设定的 “簇的数量”（需根据业务需求或通过肘部法则等方法选择，本例 K=3）。
数据预处理：若特征单位差异大（如消费金额是 0-10000 元，购买频率是 0-30 次 / 月），需先将特征标准化（如缩放到 0-1 范围），避免某一特征在距离计算中占主导。

2. 第 1 步：随机初始化 K 个簇中心

从 1000 个用户样本中，随机选择 3 个样本作为初始的 “簇中心”（即 3 个群体的 “代表”）。例如：初始中心 A（消费 5000 元，频率 15 次）、中心 B（消费 2000 元，频率 5 次）、中心 C（消费 8000 元，频率 25 次）。

3. 第 2 步：计算距离，给每个样本分配簇

对每个用户样本，计算它与 3 个簇中心的 “欧氏距离”（衡量样本与中心的相似度，距离越近越相似），将样本分配到距离最近的簇中。

示例：用户 X（消费 4500 元，频率 14 次），计算得与中心 A 的距离最近，因此将 X 归入 A 簇；用户 Y（消费 1800 元，频率 6 次）与中心 B 距离最近，归入 B 簇。
最终 1000 个用户会被分成 3 个簇（A 簇、B 簇、C 簇）。

4. 第 3 步：更新簇中心（重新计算 “代表”）

对每个簇，计算该簇内所有样本特征的 “平均值”，将这个平均值作为新的簇中心，替代原来的中心。

示例：A 簇有 300 个用户，计算这 300 个用户的平均消费金额（如 4800 元）和平均购买频率（如 14 次），新的 A 簇中心变为（4800，14）；同理更新 B 簇和 C 簇的中心。

5. 第 4 步：重复迭代，直到收敛

重复 “第 2 步（分配样本）→第 3 步（更新中心）” 的过程，直到簇中心的位置不再明显变化（或变化小于预设阈值），此时聚类结果稳定，算法停止。

收敛后，3 个簇的中心会稳定在各自群体的 “核心位置”，比如 A 簇（中等消费、中等频率）、B 簇（低消费、低频率）、C 簇（高消费、高频率），对应三类不同的用户群体。

三.集成学习

Boosting（提升法）

Boosting方法是一种迭代的集成学习技术，旨在通过逐步构建弱学习器并关注前一轮学习器的错误来提高整体模型的性能。这种方法的核心思想是，通过一系列简单的模型，如决策树桩，逐步纠正前一轮模型的不足，最终构建出一个强学习器。

Boosting方法有几种不同的变体，其中最著名的包括AdaBoost、Gradient Boosting和XGBoost。

AdaBoost（Adaptive Boosting）

初始时给所有样本相同权重，训练第一棵树。
提高前一棵树预测错误的样本权重，降低预测正确的样本权重，让下一棵树更关注 “难分样本”。
每棵树有不同权重，预测错误率低的树权重更高，最终结果是所有树的加权投票（分类）或加权平均（回归）。

Gradient Boosting（梯度提升）：对 AdaBoost 的优化，用 “梯度” 定义 “错误”。

不直接调整样本权重，而是假设前一轮集成模型的预测结果与真实值的 “残差”（差距），是下一棵树需要拟合的目标。
用 “梯度下降” 的思路，让每棵新树沿着 “减少残差” 的方向优化，本质是拟合 “残差的负梯度”，比 AdaBoost 更灵活、更易优化。

XGBoost（极端梯度提升）：Gradient Boosting 的工程化升级版。

在 Gradient Boosting 基础上，加入了正则化项（控制树的复杂度），有效避免过拟合。
支持并行计算（不是树的并行训练，而是特征分裂时的并行搜索），训练速度远快于传统 Gradient Boosting。
能处理缺失值（自动学习缺失值该分到左子树还是右子树），功能更完善

Bagging（汇聚法）

Bagging的核心思想是通过自助采样（bootstrap sampling）从原始数据集中抽取多个小规模的训练数据集。每个小数据集的大小通常与原始数据集相同，但允许有重复的样本。然后，在每个小数据集上独立地训练一个基学习器，这些基学习器通常是相同的模型，例如决策树。由于每个基学习器都是在不同的数据子集上训练的，因此它们之间具有一定的独立性。

Bagging方法通过聚合所有基学习器的预测结果来得到最终的预测。对于分类问题，通常采用投票机制，即选择得票最多的类别作为最终预测结果；对于回归问题，则通常采用平均值，即计算所有基学习器预测结果的平均值作为最终预测。

Stacking（堆叠法）

核心思想是用多个基础模型的预测结果作为新特征，再训练一个 “元模型”（meta-model）来输出最终预测，相当于 “模型的模型”。

Stacking 的流程可以简单分为 “基础模型层” 和 “元模型层”，通过两层模型的组合提升性能，具体步骤如下：

第一步：训练多个基础模型（Base Models）选择不同类型的基础模型（如随机森林、SVM、逻辑回归、XGBoost 等），用原始训练数据独立训练。核心目的：让每个基础模型从不同角度学习数据模式（比如树模型擅长捕捉非线性关系，线性模型擅长捕捉线性关系），保证多样性。
第二步：生成 “元特征”（Meta Features）用训练好的基础模型，对训练集进行预测（为了避免过拟合，通常用交叉验证的方式，即每个样本的预测值来自未参与训练它的模型），得到的预测结果作为 “新特征”（元特征）。举例：假设用 3 个基础模型，原始训练集有 1000 个样本，那么元特征就是一个 1000×3 的矩阵（每个样本对应 3 个模型的预测值）。
第三步：训练元模型（Meta Model）用 “元特征” 作为新的训练数据，原始标签作为目标，训练一个元模型（通常是简单模型，如逻辑回归、线性回归）。核心目的：学习如何最优地组合基础模型的预测结果（比如给表现好的模型更高权重，或捕捉基础模型之间的互补关系）。
第四步：最终预测对新样本，先让所有基础模型输出预测值（形成元特征），再输入元模型，得到最终结果。

查看全文

http://www.dtcms.com/a/532272.html