决策树(ID3、C4.5与CART)——从信息增益、信息增益率到基尼系数
文章目录
-
-
-
- 三种决策树算法
-
- 核心结论
- 关键区别解析
-
- 1. 分裂准则不同
- 2. 处理数据类型与任务
- 3. 树结构与剪枝
- 4. 其他细节差异
- 信息熵(Entropy)和基尼系数(Gini Index)
-
- 1. 数学定义与计算方式
- 2. 对纯度的敏感度不同
- 3. 计算效率
- 4. 实际应用场景
- 总结
- 一、RF(Random Forest,随机森林)
-
- 核心原理:“多棵树投票”的Bagging集成
- 二、XGBoost(eXtreme Gradient Boosting)
-
- 核心原理:“串行纠错”的Boosting集成
- 三、LightGBM(Light Gradient Boosting Machine)
-
- 核心原理:“高效分裂”的Boosting集成
- 三者核心区别对比
- 总结
- RF计算特征贡献
-
- 一、核心原理:“分裂贡献”+“样本扰动”
- 二、方法1:基于节点不纯度的降低(Gini Importance)
-
- 1. 单棵树中特征的重要性
- 2. 全森林的特征重要性
-
- 示例
- 三、方法2:基于排列重要性(Permutation Importance)
- 优势
- 四、特征重要性的特点与局限
-
- 优势
- 局限
- 五、实际应用建议
- 总结
-
-
三种决策树算法
核心结论
ID3、C4.5、CART是决策树的经典算法,ID3是基础,C4.5解决其缺陷,CART支持多任务且结构更简洁。
关键区别解析
1. 分裂准则不同
ID3:用信息增益,优先选择取值多的特征(如身份证号),易过拟合。C4.5:用信息增益比,修正信息增益的偏向性,平衡特征取值数量。CART:用Gini系数(分类) 或平方误差(回归),追求节点纯度最大化,计算更快。
2. 处理数据类型与任务
ID3:仅支持离散型数据,仅用于分类任务。C4.5:支持离散型+连续型数据(自动离散化),仅用于分类任务。CART:支持离散型+连续型数据,可用于分类和回归双任务,应用场景更广。
