当前位置：首页 > news >正文

第17节：传统分类模型-随机森林与决策树

news 2025/7/2 4:27:55

一、引言：分类模型在机器学习中的重要性

分类问题是机器学习中最常见且应用最广泛的任务类型之一，其目标是根据已知特征将数据实例划分到预定义的类别中。在众多分类算法中，决策树以其直观、易解释的特性成为基础而重要的模型，而随机森林则作为决策树的集成版本，通过组合多个弱分类器构建强分类器，显著提升了预测性能。

传统分类模型虽然在深度学习盛行的今天可能显得"传统"，但在许多实际应用场景中，尤其是当训练数据量有限、特征维度不高或模型可解释性要求较高时，决策树和随机森林仍然展现出强大的竞争力。它们不需要复杂的特征缩放，能够自动处理特征间的非线性关系，对缺失值也相对鲁棒，这使得它们在金融风控、医疗诊断、客户细分等领域持续发挥着重要作用。

本文将系统性地介绍决策树和随机森林的核心原理、算法实现、优缺点比较以及实际应用，帮助读者全面理解这两种经典而强大的分类模型。

二、决策树：基础概念与构建原理

2.1 决策树的基本结构与工作原理

决策树是一种树形结构的分类模型，它通过递归地将数据集分割成更小的子集来工作。

树中的每个内部节点代表一个特征测试，每个分支代表测试的结果，而每个叶节点则代表一个类别标签或概率分布。

决策树的预测过程从根节点开始，按照实例的特征值沿着对应的分支向下移动，直到到达叶节点，该叶节点的类别即为预测结果。

这种"if-then"的规则集合与人类的决策过程非常相似，使得决策树成为最易理解和解释的机器学习模型之一。

2.2 决策树的关键构建步骤

决策树的构建主要包含三个关键步骤：

特征选择：在每个节点上，选择一个最优特征来分割数据。选择标准通常基于信息增益、增益比或基尼不纯度等指标。

树的生成：根据所选特征的不同取值创建分支，并将训练数据分配到相应的子节点中。这一过程递归进行，直到满足停止条件。

剪枝处理：为防止过拟合，对生成的树进行剪枝，简化树结构，提高模型的泛化能力。

2.3 特征选择标准与分割准则

决策树构建过程中最关键的环节是特征选择，常用的标准有以下几种：

信息增益（Information Gain）：
信息增益基于信息论中的熵概念，选择能够最大程度减少数据不确定性的特征。

对于数据集D，其熵定义为：
H(D) = -Σ(p_k * log₂p_k)
其中p_k是第k类样本在D中的比例。特征A对D的信息增益为：
Gain(D,A) = H(D) - Σ(|D_v|/|D|)*H(D_v)
其中D_v是D在特征A的第v个取值上的子集。

增益比（Gain Ratio）：
为解决信息增益对取值数目较多的特征有偏好的问题，引入增益比：
Gain_ratio(D,A) = Gain(D,A)/IV(A)
其中IV(A) = -Σ(|D_v|/|D|)*log₂(|D_v|/|D|)称为特征A的固有值。

基尼指数（Gini Index）：
基尼指数衡量数据的不纯度，定义为：
Gini(D) = 1 - Σ(p_k²)
特征A的基尼指数定义为：
Gini_index(D,A) = Σ(|D_v|/|D|)*Gini(D_v)
选择使基尼指数最小的特征作为分割特征。

2.4 决策树的剪枝策略

决策树容易过拟合训练数据，剪枝是解决这一问题的有效手段，主要分为预剪枝和后剪枝：

预剪枝（Pre-pruning）：
在树生成过程中提前停止树的生长，常见停止条件包括：

达到最大深度
节点样本数小于阈值
信息增益小于阈值
节点纯度已达到较高水平

后剪枝（Post-pruning）：
先完全生成树，然后自底向上考察非叶节点，若将其替换为叶节点能提升验证集性能，则进行剪枝。常见的后剪枝方法包括：

错误率降低剪枝（REP）
悲观错误剪枝（PEP）
代价复杂度剪枝（CCP）

2.5 决策树的算法实现

决策树有多种实现算法，最著名的包括：

ID3算法：
由Ross Quinlan于1986年提出，使用信息增益作为特征选择标准，只能处理离散特征，不支持剪枝。

C4.5算法：
ID3的改进版，引入增益比克服信息增益的偏置，能够处理连续特征和缺失值，支持后剪枝。

CART算法：
采用基尼指数作为特征选择标准，可生成二叉树，支持回归和分类任务，广泛用于随机森林中。

三、随机森林：集成方法的杰出代表

3.1 集成学习与Bagging简介

随机森林属于集成学习方法中的Bagging（Bootstrap Aggregating）类型。

集成学习的核心思想是通过构建并结合多个基学习器来完成学习任务，通常能获得比单一学习器显著优越的泛化性能。

Bagging通过对训练集进行有放回的随机抽样（bootstrap采样）生成多个子训练集，然后在每个子集上训练一个基学习器，最后通过投票或平均方式结合预测结果。这种策略可以有效减少方差，降低过拟合风险，特别适用于高方差、低偏差的模型如决策树。

3.2 随机森林的核心思想

随机森林由Leo Breiman于2001年提出，它在Bagging的基础上进一步引入了随机特征选择的机制，构建了更加多样化的决策树集合。具体来说，随机森林在构建每棵树时：

使用bootstrap采样从原始训练集中抽取样本子集

在每个节点分裂时，从全部特征中随机选取一个特征子集（通常大小为√p，p为总特征数）

从随机选出的特征子集中选择最优分裂特征

这种双重随机性（数据随机性和特征随机性）确保了森林中树木的多样性，使得模型具有更好的泛化能力和抗过拟合性。

3.3 随机性在随机森林中的作用

随机森林中的随机性主要体现在两个方面：

数据层面的随机性：
通过bootstrap采样，每棵树只在约63.2%的原始数据上训练（因为每次抽样每个样本被抽中的概率为1-(1-1/N)^N ≈ 1-1/e ≈ 0.632），剩余的36.8%称为袋外数据（OOB），可用于模型评估。

特征层面的随机性：
在每个节点分裂时，不是考察所有特征，而是随机选择特征子集进行考察。这一机制打破了强特征的主导地位，使弱特征也有机会发挥作用，增加了树的多样性。

这两种随机性的结合使得随机森林中的决策树既保持一定的准确性，又具有足够的多样性，从而通过集体决策获得更好的泛化性能。

3.4 随机森林的构建算法

随机森林的构建可以形式化描述为以下步骤：

输入：训练数据集D，树的数量T，特征子集大小m
输出：随机森林模型

对于t=1到T：
a. 对D进行bootstrap采样，得到子训练集D_t
b. 使用D_t训练决策树tree_t：
i. 在每个节点分裂时，从所有p个特征中随机选择m个特征
ii. 从这m个特征中选择最优分裂特征和分裂点
iii. 按照常规决策树方式生长，直到满足停止条件

返回所有树的集合{trees}

预测时，分类任务采用多数投票，回归任务采用平均预测。