18、决策树与集成学习 - 从单一智慧到群体决策
学习目标:理解决策树的构建原理和分裂标准,掌握信息增益、基尼系数等概念,学会决策树的剪枝方法,深入理解集成学习的思想,掌握随机森林和梯度提升的基本原理。
> 从第17章到第18章:从概率模型到规则模型
在第17章中,我们学习了逻辑回归——一个基于概率的线性分类器。它给出的是概率预测,决策边界是平滑的线性超平面。但在现实世界中,我们经常需要能够解释"为什么"的模型,需要能用简单规则描述的决策过程。
想象你是一位银行信贷经理,需要决定是否批准贷款申请。你的决策过程可能是这样的:
- 如果申请人年收入低于3万元,直接拒绝
- 如果年收入高于10万元,且信用记录良好,直接批准
- 如果年收入在3-10万元之间,需要进一步看房产情况…
这种基于一系列if-else规则的决策过程,正是决策树的核心思想。决策树不仅能给出预测结果,更重要的是能清晰展示决策逻辑,这种可解释性在许多实际应用中至关重要。
但单一的决策树往往不够稳定,小的数据变化可能导致完全不同的树结构。这时候我们需要集成学习的智慧:让多个"专家"(模型)共同决策,通过群体智慧克服个体的局限性。
这就像在一个重要决策中,我们会征询多位专家的意见,而不是只听一个人的建议。随机森林让每棵树看到数据的不同侧面,梯度提升让后