决策树1.2
决策树算法概述
决策树是一种常用的机器学习分类与回归方法,通过树形结构对数据进行划分,模拟人类决策过程。
主要算法及其划分准则
1. ID3算法
核心准则:信息增益(Information Gain)
定义:信息增益表示使用某属性进行划分后,数据集“纯度”提升的程度。
特点:信息增益越大,划分效果越好。
缺点:对取值较多的属性有偏好(如“编号”),容易导致过拟合。
2. C4.5算法
改进:使用**信息增益率**(Gain Ratio)作为划分准则。
计算方式:信息增益 ÷ 自身熵(Intrinsic Value)
优点:缓解了ID3对多值属性的偏好问题。
3. CART算法
适用于分类与回归
分类准则:基尼指数(Gini Index)
定义:从数据集中随机抽取两个样本,其类别不一致的概率。
Gini(D)越小,数据集纯度越高。
回归准则:最小二乘法(未在PPT中展开)
连续值处理
决策树也可处理连续型特征,常用方法是二分法(CART中常用),但PPT中未详细展开。
决策树剪枝策略
1. 为什么要剪枝?
决策树容易过拟合,尤其在深度深、节点多的情况下。
剪枝可提升模型泛化能力。
2. 预剪枝(Pre-pruning)
在构建过程中提前停止生长。
常用限制条件:树的最大深度、叶子节点最小样本数、信息增益阈值等。
优点:训练速度快,实用性强。
先构建完整决策树,再自底向上剪枝。
常用损失函数:
\[
\text{最终损失} = \text{GINI系数} + \alpha \times \text{叶子节点数量}
\]
-α的作用:
α越大,模型越简单,抗过拟合能力强,但可能欠拟合。
α越小,模型越复杂,拟合能力强,但易过拟合。