当前位置：首页 > news >正文

机器学习实战：决策树算法详解

news 2025/7/3 7:41:19

一、决策树算法概述

决策树(Decision Tree)是一种常见的机器学习算法，它通过树状结构对数据进行分类或回归。决策树算法模仿人类的决策过程，通过一系列的判断条件来逐步对数据进行划分。

1.1 决策树的基本概念

决策树由以下几种元素组成：

根节点(Root Node): 包含完整数据集的起始节点
内部节点(Internal Node): 表示一个特征或属性
分支(Branch): 表示决策规则
叶节点(Leaf Node): 表示决策结果

1.2 决策树的优缺点

优点:

易于理解和解释，可视化直观
需要较少的数据预处理(不需要归一化或标准化)
能够处理数值型和类别型数据
可以处理多输出问题

缺点:

容易过拟合，需要进行剪枝
对数据中的噪声比较敏感
可能会创建偏向于具有大量级别的属性的树

二、决策树的构建过程

2.1 特征选择

决策树构建的核心是选择最佳划分特征，常用的特征选择标准有：

信息增益(Information Gain)
- 基于信息熵的减少量来选择特征
- ID3算法使用信息增益
信息增益比(Gain Ratio)
- 对信息增益进行了改进，考虑了特征本身的熵
- C4.5算法使用信息增益比
基尼指数(Gini Index)
- 衡量数据集的不纯度
- CART算法使用基尼指数

2.2 决策树的生成

决策树的生成是一个递归过程，主要步骤包括：

从根节点开始，计算所有可能的特征划分
选择最佳划分特征
根据该特征的取值创建子节点
对每个子节点递归地重复上述过程
直到满足停止条件(如节点中的样本全部属于同一类别、达到最大深度等)

2.3 决策树的剪枝

为了防止过拟合，需要对决策树进行剪枝。剪枝分为：

预剪枝(Pre-pruning): 在树构建过程中提前停止
后剪枝(Post-pruning): 先构建完整树，然后剪去不重要的分支

三、Scikit-learn中的决策树API

Scikit-learn提供了两个主要的决策树实现：

DecisionTreeClassifier: 用于分类问题
DecisionTreeRegressor: 用于回归问题

3.1 DecisionTreeClassifier参数详解

class sklearn.tree.DecisionTreeClassifier(criterion='gini',          # 衡量分割质量的函数：# - "gini": 基尼不纯度（Gini impurity），计算概率分布的基尼系数# - "entropy": 信息增益（Information gain），计算信息熵的减少量# - 从v1.3版本开始新增"log_loss"（对数损失）splitter='best',          # 选择每个节点分割的策略：# - "best": 选择最佳分割（计算所有可能分割）# - "random": 随机选择分割（可能更快但结果可能不是最优）max_depth=None,           # 树的最大深度：# - None: 不限制深度，直到所有叶子都是纯的或包含少于min_samples_split样本# - 整数: 限制树的最大深度（重要防过拟合参数）min_samples_split=2,      # 分割内部节点所需的最小样本数：# - 整数: 表示绝对数量（如5表示至少需要5个样本）# - 浮点数: 表示占总样本的比例（如0.1表示10%）min_samples_leaf=1,       # 叶节点所需的最小样本数：# - 整数: 表示绝对数量# - 浮点数: 表示占总样本的比例# （防止创建样本数过少的叶节点）min_weight_fraction_leaf=0.0, # 叶节点所需的权重总和的最小加权分数：# 当sample_weight被提供时使用（与min_samples_leaf二选一）# 如0.1表示叶节点权重和必须≥总权重的10%max_features=None,        # 寻找最佳分割时要考虑的特征数量：# - None/不设置: 考虑所有特征# - "auto"/"sqrt": sqrt(n_features)# - "log2": log2(n_features)# - 整数: 绝对数量# - 浮点数: 占总特征的比例# （影响训练速度和模型随机性）random_state=None,        # 控制随机性：# - None: 使用随机数生成器的默认状态# - 整数: 作为随机数生成器的种子# （确保结果可重现）max_leaf_nodes=None,      # 最大叶节点数量：# - None: 不限制叶节点数量# - 整数: 以最佳优先方式生长树# （替代max_depth的剪枝方法）min_impurity_decrease=0.0, # 分割节点需要的最小不纯度减少量：# 计算公式：N_t / N * (impurity - N_t_R / N_t * right_impurity#                         - N_t_L / N_t * left_impurity)# 其中N是总样本数，N_t是当前节点样本数class_weight=None,        # 类别权重：# - None: 所有类别权重为1# - "balanced": 自动计算权重，与类别频率成反比# - 字典: 手动指定{class_label: weight}# （处理类别不平衡问题）ccp_alpha=0.0            # 最小成本复杂度剪枝参数：# - 0.0: 默认不剪枝# - >0.0: 较大的值会导致更多剪枝# （通过交叉验证选择最优值）
)

3.2 DecisionTreeRegressor参数详解

class sklearn.tree.DecisionTreeRegressor(criterion='mse',          # 衡量分割质量的函数：# - "mse": 均方误差（Mean Squared Error），计算预测值与实际值的平方差的均值# - "friedman_mse": 改进的MSE，考虑了Friedman的潜在改进# - "mae": 平均绝对误差（Mean Absolute Error），计算预测值与实际值的绝对差的均值# 注意：在v0.23版本后，"mse"和"mae"分别被重命名为"squared_error"和"absolute_error"splitter='best',          # 选择每个节点分割的策略：# - "best": 选择最佳分割# - "random": 选择最佳随机分割（可能更快的训练速度但结果可能不是最优）max_depth=None,           # 树的最大深度：# - None: 不限制深度，直到所有叶子都是纯的或包含少于min_samples_split样本# - 整数: 限制树的最大深度，防止过拟合min_samples_split=2,      # 分割内部节点所需的最小样本数：# - 整数: 表示绝对数量# - 浮点数: 表示占总样本的比例（ceil(min_samples_split * n_samples)）min_samples_leaf=1,       # 叶节点所需的最小样本数：# - 整数: 表示绝对数量# - 浮点数: 表示占总样本的比例（ceil(min_samples_leaf * n_samples)）# 防止创建样本数过少的叶节点min_weight_fraction_leaf=0.0, # 叶节点所需的权重总和的最小加权分数：# 当sample_weight被提供时使用，限制叶节点权重和的最小比例max_features=None,        # 寻找最佳分割时要考虑的特征数量：# - None: 考虑所有特征# - "auto"/"sqrt": sqrt(n_features)# - "log2": log2(n_features)# - 整数: 绝对数量# - 浮点数: 占总特征的比例# 限制考虑的特征数量可以加速训练并增加随机性random_state=None,        # 控制随机性：# - None: 使用随机数生成器的默认状态# - 整数: 作为随机数生成器的种子# 确保结果可重现max_leaf_nodes=None,      # 最大叶节点数量：# - None: 不限制叶节点数量# - 整数: 以最佳优先方式生长树，直到达到max_leaf_nodes# 另一种控制树复杂度的方式min_impurity_decrease=0.0, # 如果分割导致不纯度减少>=该值，则分割节点：# 计算公式：N_t / N * (impurity - N_t_R / N_t * right_impurity#                         - N_t_L / N_t * left_impurity)# 其中N是总样本数，N_t是当前节点的样本数，N_t_L和N_t_R是分割后的左右子节点样本数ccp_alpha=0.0            # 用于最小成本复杂度剪枝的复杂度参数：# - 0.0: 默认值，不进行剪枝# - >0.0: 较大的值会导致更多的剪枝# 通过交叉验证选择最优值
)

四、决策树实战示例

4.1 分类问题示例

# 导入必要的库
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn import tree
import matplotlib.pyplot as plt# 加载鸢尾花数据集
iris = load_iris()
X = iris.data  # 特征矩阵 (150, 4)
y = iris.target  # 目标向量 (150,)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 创建决策树分类器实例
# 参数说明:
# max_depth=3 - 限制树的最大深度为3，防止过拟合
# random_state=42 - 确保结果可重现
clf = DecisionTreeClassifier(max_depth=3, random_state=42)# 训练模型
clf.fit(X_train, y_train)# 预测测试集
y_pred = clf.predict(X_test)# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确率: {accuracy:.2f}")# 可视化决策树
plt.figure(figsize=(12, 8))
tree.plot_tree(clf, feature_names=iris.feature_names, class_names=iris.target_names,filled=True, rounded=True)
plt.title("鸢尾花分类决策树")
plt.show()

4.2 回归问题示例

# 导入必要的库
from sklearn.datasets import load_diabetes
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np# 加载糖尿病数据集
diabetes = load_diabetes()
X = diabetes.data  # 特征矩阵
y = diabetes.target  # 目标向量# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建决策树回归器实例
# 参数说明:
# max_depth=4 - 限制树的最大深度为4
# min_samples_split=5 - 分割内部节点至少需要5个样本
# random_state=42 - 确保结果可重现
reg = DecisionTreeRegressor(max_depth=4, min_samples_split=5, random_state=42)# 训练模型
reg.fit(X_train, y_train)# 预测测试集
y_pred = reg.predict(X_test)# 评估模型
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
print(f"均方误差(MSE): {mse:.2f}")
print(f"均方根误差(RMSE): {rmse:.2f}")# 输出特征重要性
print("\n特征重要性:")
for name, importance in zip(diabetes.feature_names, reg.feature_importances_):print(f"{name}: {importance:.3f}")

4.3 决策树剪枝示例

# 导入必要的库
from sklearn.datasets import make_classification
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt# 创建一个复杂的数据集
X, y = make_classification(n_samples=1000, n_features=20, n_informative=5, n_redundant=2,random_state=42)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 创建不同ccp_alpha值的决策树
ccp_alphas = [0.0, 0.01, 0.02, 0.05, 0.1]
train_scores = []
test_scores = []for alpha in ccp_alphas:clf = DecisionTreeClassifier(random_state=42, ccp_alpha=alpha)clf.fit(X_train, y_train)train_scores.append(clf.score(X_train, y_train))test_scores.append(clf.score(X_test, y_test))# 绘制剪枝效果图
plt.figure(figsize=(10, 6))
plt.plot(ccp_alphas, train_scores, marker='o', label='训练集准确率')
plt.plot(ccp_alphas, test_scores, marker='o', label='测试集准确率')
plt.xlabel('ccp_alpha')
plt.ylabel('准确率')
plt.title('决策树剪枝效果')
plt.legend()
plt.grid(True)
plt.show()

五、决策树的高级应用

5.1 处理类别不平衡问题

from sklearn.datasets import make_classification
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report# 创建一个类别不平衡的数据集
X, y = make_classification(n_samples=1000, n_classes=2, weights=[0.9, 0.1], random_state=42)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 创建决策树分类器，使用类别权重平衡
# class_weight='balanced'会自动调整权重与类别频率成反比
clf = DecisionTreeClassifier(max_depth=3, class_weight='balanced',random_state=42)# 训练模型
clf.fit(X_train, y_train)# 预测并评估
y_pred = clf.predict(X_test)
print(classification_report(y_test, y_pred))

5.2 决策树特征重要性分析

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.tree import DecisionTreeClassifier# 加载乳腺癌数据集
data = load_breast_cancer()
X = data.data
y = data.target# 创建决策树分类器
clf = DecisionTreeClassifier(max_depth=4, random_state=42)
clf.fit(X, y)# 获取特征重要性
importances = clf.feature_importances_
indices = np.argsort(importances)[::-1]# 打印特征重要性排序
print("特征重要性排序:")
for f in range(X.shape[1]):print(f"{f + 1}. {data.feature_names[indices[f]]}: {importances[indices[f]]:.4f}")# 绘制特征重要性条形图
plt.figure(figsize=(12, 6))
plt.title("特征重要性")
plt.bar(range(X.shape[1]), importances[indices], align="center")
plt.xticks(range(X.shape[1]), data.feature_names[indices], rotation=90)
plt.xlim([-1, X.shape[1]])
plt.tight_layout()
plt.show()

六、决策树的优化技巧

参数调优:
- 使用网格搜索或随机搜索寻找最佳参数组合
- 重点关注max_depth、min_samples_split和min_samples_leaf
处理过拟合:
- 增加min_samples_leaf或min_samples_split
- 减小max_depth或设置max_leaf_nodes
- 使用ccp_alpha进行剪枝
处理大数据集:
- 设置max_features为"sqrt"或"log2"减少计算量
- 使用随机采样训练数据
提升模型性能:
- 考虑使用集成方法如随机森林或梯度提升树
- 对数据进行适当的预处理和特征工程