当前位置：首页 > news >正文

集成学习的相关理论阐述

news 2025/7/27 6:18:29

一、个体与集成

集成学习就是用某种策略把一组个体学习器（某种学习方法产生的，也可叫做组件学习器）结合起来。
同样的学习方法得到的个体学习器是同质的；且同质集成的个体学习器叫基学习器，相应的算法又叫做基学习算法；不同学习方法集成的叫做异质集成，其中就没有基学习器。
要获得好的集成，个体学习器需要“好而不同”，即个体学习器要有一定的准确性，且各自之间要具有差异。
集成方法分类：
- 个体学习器间存在强依赖关系、必须串行生成的序列化方法（例 $Boosting$ ）；
- 个体学习器间不存在强依赖关系、可同时生成的并行化方法（例如 $Bagging$ 和随机森林）；

二、Boosting 介绍

这是一个将弱学习器提升为强学习器的算法：先训练一个基学习器，然后根据其表现来调整训练样本，使得错误的样本在之后受到更多关注，然后一直重复，直到学习器数目达到要求（每轮样本重新赋权，一定要比前一轮好才会保留）。
该算法主要是关注降低偏差。

三、Bagging 和随机森林

本质就相当于概率论的球袋模型（不可用于多分类、回归任务）；
- 通过自助采样法从原始训练集中有放回地抽取多个子样本集；
- 基于每个子样本集独立训练一个基学习器；
- 将所有基学习器的预测结果进行组合（分类问题通常使用投票法，回归问题通常使用平均法）得到最终预测；
随机森林的核心思想是 "集体决策"，即通过多个决策树的投票（分类）或平均（回归）来提升模型的泛化能力。
- 随机森林是 $Bagging$ 的扩展，专门基于决策树，并在 $Bagging$ 的基础上进一步引入随机特征选择（每个节点分裂时仅考虑部分随机特征），从而增强模型的多样性，减少过拟合，提升泛化能力。简言之，随机森林 = $Bagging$ + 随机特征选择 + 决策树，而 $Bagging$ 可适用于任意基学习器；
二者的收敛性是相似的。

四、学习器结合

平均法（适合数值型输出）
- 简单平均；
- 加权平均；
投票法（适合多分类任务等）
- 绝对多数投票法（超过半数）；
- 相对多数投票法（得票最多，同时多个则随机选一个）；
- 加权投票法；
学习法：使用不同的算法训练初级学习器（异质个体学习器），然后使用“生成”新的数据集训练次级学习器（就是初级结合起来的学习器）。

五、误差-分歧分解

其实就是为了理想化集成，在保持个体学习器准确性的前提下（ $E$ （个体学习器平均误差）越小越好），尽可能增大学习器间的多样性（ $D$ （平均分歧度）越大多样性越好）。

$E=\overline{E}-\overline{A}\space.$

六、不合度量

两个分类器在预测相同样本时的不一致的比例，反应决策边界差异。

$\mathrm{Dis}_{i,j}=\frac{N^{01}+N^{10}}{N}\space,$

$N^{01}$ 和 $N^{10}$ 分别是 $i$ 分类器预测正确，但是 $j$ 分类器预测错误的样本数；以及 $i$ 分类器预测错误， $j$ 分类器预测正确的样本数； $N$ 是总样本数；其结果的值越大表示两个分类器的分歧越大。

七、相关系数

皮尔逊相关系数：

$\rho_{X,Y}=\frac{\mathrm{Cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{\sum_{i=1}^{n}(X_i-\overline{X})(Y_i-\overline{Y})}{\sqrt{\sum_{i=1}^n(X_i-\overline{X})^2}\sqrt{\sum_{i=1}^n(Y_i-\overline{Y})^2}}$