当前位置：首页 > news >正文

决策树学习笔记

news 2025/8/19 8:07:23

决策树是一种基于树形结构的机器学习模型，其工作逻辑是从根节点开始，通过对数据特征的逐步判断，沿着分支路径流动，最终抵达叶子节点并输出决策结果。它的显著优势是既能处理分类任务（如判断邮件是否为垃圾邮件），也能完成回归任务（如预测房屋价格），所有输入数据都会被精准分配到某个叶子节点。

根节点：决策树的起点，包含全部训练数据样本，是首次进行特征判断的节点。例如在 “是否适合打球” 的决策树中，根节点会从 “天气”“温度” 等特征中选择第一个判断条件。
非叶子节点与分支：非叶子节点是中间决策点，每个节点对应一个特征，特征的不同取值会形成不同分支。比如 “天气” 节点下，会有 “晴天”“阴天”“雨天” 三个分支，数据根据自身特征值进入对应分支。
叶子节点：树形结构的末端节点，不再进行特征判断，直接输出决策结果。在分类任务中是具体类别（如 “适合打球”“不适合打球”），在回归任务中是连续数值（如 “房价 80 万元”）。

核心目标是从训练数据中构建出一棵最优决策树，关键步骤包括：

流程相对简单：

构建决策树时需解决两个关键问题：

定义：熵是描述随机变量不确定性的数学度量，在决策树中用于衡量数据集中类别的混乱程度。
公式：\(H(X) = -\sum_{i=1}^{n} p_i \times \log p_i\)，其中\(p_i\)是第i类数据在样本中的占比，n是类别总数。
特性：
- 当所有数据属于同一类别（\(p_i=1\)或\(p_i=0\)）时，熵\(H(X)=0\)，不确定性为 0；
- 当数据中两类占比相等（\(p_i=0.5\)）时，熵\(H(X)=1\)，不确定性最大；
- 不确定性越高，熵值越大。分类任务中希望划分后子节点的熵值更小。

定义：表示某特征划分数据后，数据集不确定性减少的程度，即 “原始熵 - 划分后熵”。
计算逻辑：
- 先计算原始数据集的熵（初始不确定性）；
- 按某特征的不同取值将数据划分为若干子集，计算每个子集的熵；
- 用各子集的样本占比加权计算 “划分后总熵”；
- 信息增益 = 原始熵 - 划分后总熵。
作用：信息增益越大，说明该特征对降低不确定性的作用越显著，因此在节点划分时优先选择信息增益最大的特征。

原始数据集熵：\(H = -(\frac{9}{14} \times \log\frac{9}{14} + \frac{5}{14} \times \log\frac{5}{14}) \approx 0.940\)。

子集熵计算：
- 天气 = 晴天（5 天）：3 天打球、2 天不打球，熵\(H_1 \approx 0.971\)；
- 天气 = 阴天（4 天）：4 天打球、0 天不打球，熵\(H_2 = 0\)；
- 天气 = 雨天（5 天）：2 天打球、3 天不打球，熵\(H_3 \approx 0.971\)。
划分后总熵：\(H_{\text{outlook}} = \frac{5}{14} \times 0.971 + \frac{4}{14} \times 0 + \frac{5}{14} \times 0.971 \approx 0.693\)。
信息增益：\(IG = 0.940 - 0.693 = 0.247\)。