当前位置：首页 > news >正文

机器学10——集成学习

news 2025/11/8 14:54:19

集成学习

Intro

集成学习的基本思想

定义：集成学习是一种通过结合多个模型的输出来提升整体学习性能的策略。目标是构建一个比任何一个单独模型都更强的组合模型。

核心动机：

减少误差（error rate）
多个模型的投票可以互补弱点，从而提升泛化能力。

多样性来源：

不同学习算法（如决策树、SVM、神经网络）；
同一算法但不同超参数设置；
使用训练数据的不同子集或不同特征子集。

模型结构分类

类别	描述
异质集成（Heterogeneous Ensemble）	多个不同类型的学习器构成
同质集成（Homogeneous Ensemble）	使用同一学习算法，不断更改数据子集进行训练（如 Bagging、Boosting）

Bagging: Resample training data
Boosting: Reweight training data

举例说明

举例：使用同一训练集构建 100 棵决策树，让它们对新样本进行投票分类，最终以多数票确定类别。

这种多数投票方式可显著减少单个模型的过拟合问题，提高整体鲁棒性。

Bagging（Bootstrap Aggregating）

核心机制：通过**自助采样法（bootstrap sampling）**获得多个训练子集，并对每个子集训练一个模型。

主要步骤：

给定训练集 L（大小为 n）；
重复 B 次：
- 从 L 中有放回地采样 n 个样本，生成子集 $L_k$ ；
- 使用 $L_k$ 训练一个模型 $h_k$ ；
使用投票（分类）或平均（回归）整合所有模型预测结果。

Bootstrap 方法解释

用于从原始样本集模拟多个训练集，从而评估模型稳定性或减少方差。

举例：

原始样本 L 有 8 个数据点，可能生成如下子集：

子集编号	示例数据点（重复可能）
L1	2, 7, 8, 3, 7, 6, 3, 1
L2	7, 8, 5, 6, 4, 2, 7, 1
L3	3, 6, 2, 7, 5, 6, 2, 2

每个子集包含原始样本的约 63.2% 的唯一样本，剩下的是重复样本。

Bootstrap不适用于：
- Small data sets: the original sample is not a good approximation of the population
- Dirty data: outliers add variability in our estimates.
- Dependence structures (e.g., time series, spatial problems): Bootstrap is based on the assumption of independence.

Bagging 的本质

Bagging 利用多个训练集训练多个模型，然后平均它们的偏差并减少方差，从而提升整体预测效果。最终通过**投票（分类）或平均（回归）**组合结果。

Bagging 的适用场景

效果好：

非稳定学习器（unstable learners）：
- 决策树、神经网络、回归树等；
- 特点：对训练数据的微小扰动敏感。

效果有限甚至退化：

稳定学习器（stable learners）：
- K 最近邻、线性回归；
- 模型对训练集变化不敏感。

Bagging 总结：

适合高方差模型；
有效提升鲁棒性与泛化能力；
不能明显减少偏差。

Boosting：基于重加权的集成方法

Boosting 的核心思想

串行训练多个模型，让后一个模型专注于前一个模型犯错的部分。

特点：

每个弱学习器都依赖前一个；
错误样本的权重不断增加；
强调难以分类的样本；
组合所有弱模型的输出以构建强模型。

Boosting 的过程（简化示例）

初始化训练集 $D$ ，样本权重均等；
从中选取子集 $D_1$ ，训练第一个模型 $C_1$ ；
提取被 $C_1$ 错误分类的样本，构成子集 $D_2$ ，训练 $C_2$ ；
选出 $C_1$ 与 $C_2$ 不一致预测的样本，训练 $C_3$ ；
最终分类由 $C_1, C_2, C_3$ 投票决定。

这种方法能不断纠正前一阶段模型的错误，是一种“纠错机制”。

Boosting 的关键效果

能将多个 弱学习器（准确率略高于随机猜测）组合成一个强学习器；
不仅降低偏差，还可在某种程度上减少方差；
常用算法：AdaBoost、Gradient Boosting、XGBoost 等。

AdaBoost(Adaptive)

什么是 AdaBoost？

背景与目标

提出者：Yoav Freund 与 Robert Schapire 在 1995 年 EuroCOLT 会议中提出；
核心思想：将多个“弱分类器”（性能略好于随机）组合成一个“强分类器”（准确率接近完美）；
$\left.\begin{array}{rl} h_1(x) & \in\{-1,+1\} \\ h_2(x) & \in\{-1,+1\} \\ & \vdots \\ h_T(x) & \in\{-1,+1\} \end{array}\right\} \quad H_T(x)=\operatorname{sign}\left(\sum_{t=1}^T \alpha_t h_t(x)\right)$
关键区别于 Bagging：
- Bagging 是对训练集“重采样”；
- AdaBoost 是对样本“重新加权”。

应用场景

适用于任何二分类任务，特别是基分类器表现不稳定时（如：决策树、神经网络）。

AdaBoost 算法流程

给定训练集：
$\{(x_1, y_1), (x_2, y_2), \dots, (x_m, y_m)\}, \quad y_i \in \{-1, +1\}$

初始化样本权重分布

$D_1(i) = \frac{1}{m}, \quad i = 1, 2, \dots, m$

每个样本一开始拥有相等的“重要性权重”。

多轮训练（Boosting 迭代）

对每一轮 $\dots, T$ ：

Step 1：训练弱分类器

在当前分布 $D_t$ 下，训练一个弱分类器 $ht:X→{−1,+1}h_t: X \to \{-1, +1\}$ ，使加权错误最小：
$\varepsilon_t = \sum_{i=1}^{m} D_t(i) \cdot \mathbb{I}[h_t(x_i) \ne y_i]$
其中 $I\mathbb{I}$ 是指示函数。

Step 2：计算该分类器的重要性

$\alpha_t = \frac{1}{2} \ln \left( \frac{1 - \varepsilon_t}{\varepsilon_t} \right)$

若分类器准确率高（ $εt\varepsilon_t$ 小），则权重大；
若 $εt=0.5\varepsilon_t = 0.5$ ，表示等于随机猜测， $αt=0\alpha_t = 0$ 。

Step 3：更新样本分布

$D_{t+1}(i) = \frac{D_t(i) \cdot \exp\left(-\alpha_t y_i h_t(x_i)\right)}{Z_t}$

分类正确： $y_i = h_t(x_i)$ ，指数为负，权重降低；
分类错误： $yi≠ht(xi)y_i \ne h_t(x_i)$ ，指数为正，权重升高；
$Z_t$ ：归一化因子，确保 $D_{t+1}$ 是合法的概率分布。

最终强分类器

将所有弱分类器加权投票构建最终分类器：
$H_T(x) = \operatorname{sign} \left( \sum_{t=1}^{T} \alpha_t h_t(x) \right)$

AdaBoost 的动机与目标

为什么 $αt=12ln⁡(1−εtεt)\alpha_t = \frac{1}{2} \ln \left( \frac{1 - \varepsilon_t}{\varepsilon_t} \right)$ ?为什么 $Dt+1(i)=Dt(i)⋅exp⁡(−αtyiht(xi))ZtD_{t+1}(i) = \frac{D_t(i) \cdot \exp\left(-\alpha_t y_i h_t(x_i)\right)}{Z_t}$ ？它们是如何得到的？

$αt\alpha_t$ =?

为了最大化分类间隔 $yH (x)$ ，AdaBoost 选择优化以下目标函数：

$\mathcal{L}_{\text{exp}}[H(x)] = \mathbb{E}_{x, y}\left[e^{-yH(x)}\right]$

初始化：

初始组合分类器： $H_0(x) = 0$
初始样本分布： $D1(i)=1mD_1(i) = \frac{1}{m}$ ，即每个样本权重相等。

递推构造强分类器

我们使用递推结构来构造 $H_t(x)$ ：
$H_t(x) = H_{t-1}(x) + \alpha_t h_t(x)$

优化目标函数

令当前指数损失函数为：
$\mathcal{L}_t = \mathbb{E}_{x, y}\left[e^{-y H_t(x)}\right]$
代入递推式：
$H_t(x) = H_{t-1}(x) + \alpha_t h_t(x)$
得到：
$\begin{aligned} E_{x, y}\left[e^{-y H_t(x)}\right] & =E_x\left[E_y\left[e^{-y H_t(x)} \mid x\right]\right]（给定x，先求y的期望） \\ & =E_x\left[E_y\left[e^{-y\left[H_{t-1}(x)+\alpha_t h_t(x)\right]} \mid x\right]\right] （带入）\\ & =E_x\left[E_y\left[e^{-y H_{t-1}(x)} e^{-y \alpha_t h_t(x)} \mid x\right]\right]（将 y \in \{-1, +1\}分别代入求和） \\ & =E_x\left[e^{-y H_{t-1}(x)}\left[e^{-\alpha_t} P\left(y=h_t(x)\right)+e^{\alpha_t} P\left(y \neq h_t(x)\right)\right]\right] \end{aligned}$
为了最小化这个损失函数，由于我们在找 $αt\alpha_t$ 的值，那么对于整个损失函数对 $αt\alpha_t$ 求偏导数：
$\begin{aligned} &\text { Set } \frac{\partial}{\partial \alpha_t} E_{x, y}\left[e^{-y H_t(x)}\right]=0\\ &\Rightarrow E_x\left[e^{-y H_{t-1}(x)}\left[-e^{-\alpha_t} P\left(y=h_t(x)\right)+e^{\alpha_t} P\left(y \neq h_t(x)\right)\right]\right]=0 \end{aligned}$

$\begin{aligned} \Rightarrow \alpha_t=\frac{1}{2} \ln \frac{P\left(y=h_t(x)\right)}{P\left(y \neq h_t(x)\right)} \Rightarrow \alpha_t & =\frac{1}{2} \ln \frac{1-\varepsilon_t}{\varepsilon_t} \\ \varepsilon_t & =P(\text { error }) \approx \sum_{i=1}^m D_t(i)\left[y_i \neq h_j\left(x_i\right)\right] \end{aligned}$

$D_{t+1}$ =？

我们有：
$\mathbb{E}_{x,y}[e^{-y H_t(x)}] = \mathbb{E}_{x,y}[e^{-y H_{t-1}(x)} e^{-\alpha_t y h_t(x)}]$
对 $e−αtyht(x)e^{-\alpha_t y h_t(x)}$ 泰勒展开:

假设 $αt\alpha_t$ 足够小，可以近似一阶或二阶泰勒展开：
$e^{-\alpha_t y h_t(x)} \approx 1 - \alpha_t y h_t(x) + \frac{1}{2} \alpha_t^2 y^2 h_t^2(x)$
将其代入上式：
$\mathbb{E}_{x,y}[e^{-y H_t(x)}] \approx \mathbb{E}_{x,y}\left[e^{-y H_{t-1}(x)} \left(1 - \alpha_t y h_t(x) + \frac{1}{2} \alpha_t^2 y^2 h_t^2(x) \right) \right]$
由于 $y^2 = 1$ ， $h_t^2(x) = 1$ （因为 $ht(x)∈{−1,+1}h_t(x) \in \{-1, +1\}$ ），所以上式简化为：
$\mathbb{E}_{x,y}\left[e^{-y H_{t-1}(x)} \left(1 - \alpha_t y h_t(x) + \frac{1}{2} \alpha_t^2 \right) \right]$
忽略常数项 $12αt2\frac{1}{2} \alpha_t^2$ ，因为它不依赖于 $h_t$ ，我们将目标变为：
$h_t = \arg \min_h \mathbb{E}_{x,y}\left[e^{-y H_{t-1}(x)} \left( -\alpha_t y h(x) \right) \right]$
可以把 $αt\alpha_t$ 提出来，得到等价的：
$h_t = \arg \max_h \mathbb{E}_{x,y}\left[ e^{-y H_{t-1}(x)} y h(x) \right]$
将期望分解为条件期望：
$h_t = \arg \max_h E_x \left[ E_y \left[ e^{-y H_{t-1}(x)} y h(x) \mid x \right] \right]$
进一步写成：
$h_t = \arg \max_h \mathbb{E}_x\left[ h(x) \left( e^{-H_{t-1}(x)} P(y=1|x) - e^{H_{t-1}(x)} P(y=-1|x) \right) \right]$
观察可知，
$h_t=\arg \max _h E_{x, y \sim e^{-y H_{t-1}(x)} P(y \mid x)}[y h(x)]$

其中下标 $Ex,y∼e−yHt−1(x)P(y∣x)\mathbb{E}_{x, y \sim e^{-y H_{t-1}(x)} P(y \mid x)}$ 的意思是：

在一个 经过重新加权的xy分布 上，求期望。

正常来说，我们是在数据的真实分布上做期望：
$\mathbb{E}_{x, y \sim P(x, y)} [\cdot]$
但在 AdaBoost 的推导中，我们采用了一个指数加权的样本分布，即：
$P_t(x, y) \propto e^{-y H_{t-1}(x)} P(x, y)$
或者写成条件概率形式：
$P_t(y|x) \propto e^{-y H_{t-1}(x)} P(y|x)$

即：每个 $x$ 上的最优 $h (x)$ 应该让：
$h_t(x)=\operatorname{sign}\left(E_{x, y \sim e^{-y H_{t-1}(x)} P(y \mid x)}[y \mid x]\right)(跟y同号)\\$
由于我们有：
$\sim e^{-y H_{t-1}(x)} P(y|x)s$
相当于说，我们在第 $t$ 轮，不重新采样，而是重新加权样本的分布。(上面的公式就意味着对于样本分布做了调整，系数是 $e^{-y H_{t-1}(x)}$ )

令：
$D_t(i) = \frac{1}{Z_t} \cdot e^{-y_i H_{t-1}(x_i)} = \text{样本 } (x_i, y_i) \text{ 的权重}$
那么：
$\begin{aligned} D_{t+1}(i) & =\frac{1}{Z_t} \cdot e^{-y_i H_t\left(x_i\right)} \\ & =\frac{1}{Z_t} \cdot e^{-y_i\left(H_{t-1}\left(x_i\right)+\alpha_t h_t\left(x_i\right)\right)} \\ & =\frac{1}{Z_t} \cdot e^{-y_i H_{t-1}\left(x_i\right)} \cdot e^{-y_i \alpha_t h_t\left(x_i\right)} \\ & =\frac{D_t(i) \exp \left[-\alpha_t y_i h_t\left(x_i\right)\right]}{Z_t} \end{aligned}$