决策树1.1
决策树基础概念
1. 模型定义
从根节点开始,通过特征判断逐步走到叶子节点完成决策。
功能:支持分类和回归任务,所有数据最终落入叶子节点。
2. 核心结构
根节点:初始特征选择点
非叶子节点 & 分支:中间决策过程
叶子节点:最终决策结果
关键机制:特征选择与分裂
1. 核心问题
如何选择根节点及后续节点的特征?
目标:最大化分类效果,使同类数据尽可能聚集。
2. 衡量标准:熵(Entropy)
定义:表示随机变量的不确定性(混乱程度)。
公式: $$ H(X) = -\sum_{i=1}^{n} p_i \log_2 p_i $$
熵的特性:
不确定性最大时(如各类别均匀分布):$H(p)=1$
完全确定时(如仅一类):$H(p)=0$
3. 信息增益(Information Gain)
定义:特征 $X$ 使得类别 $Y$ 不确定性减少的程度。
目标:选择信息增益最大的特征作为节点(优先降低系统熵值)。
决策树构建实例:14天打球预测
1. 数据背景
14天历史数据:9天打球,5天不打球。
初始系统熵值:$H_{\text{初始}} = 0.940$
特征:天气(Outlook)等4种环境因素。
2. 特征分裂计算(以Outlook为例)
Outlook 天数占比 子集熵值 加权熵贡献
Sunny 5/14 0.971 $0.357$
Overcast 4/14 0 $0$
Rainy 5/14 0.971 $0.357$
分裂后系统熵:$H_{\text{新}} = 0.693$
信息增益:$Gain = 0.940 - 0.693 = 0.247$
3. 节点选择策略
遍历所有特征,选择信息增益最大的特征作为根节点。
递归选择后续节点:在剩余特征中继续选取增益最大者。
决策树训练流程
1. 训练阶段
从根节点开始,基于信息增益选择特征分裂数据。
递归分裂直至满足停止条件(如节点数据纯净或特征用完)。
2. 测试阶段
新数据从根节点向下遍历,根据特征值选择分支,直至到达叶子节点获得预测结果。