当前位置：首页 > news >正文

人工智能直通车系列15【机器学习基础】（决策树算法原理（ID3、C4.5、CART）决策树模型实现）

news 2025/8/23 19:33:24

决策树算法原理

1. 决策树概述

2. ID3 算法原理

3. C4.5 算法原理

4. CART 算法原理

决策树模型实现（scikit - learn）

代码实现步骤

代码解释

场景示例

贷款审批

疾病诊断

决策树算法原理

1. 决策树概述

决策树是一种基本的分类与回归方法，它通过对特征进行递归划分，将数据集分割成不同的子集，直到每个子集都尽可能属于同一类别（分类树）或具有相似的数值输出（回归树）。决策树由节点和边组成，内部节点表示一个特征上的测试，分支表示测试输出，叶节点表示类别或值。

2. ID3 算法原理

核心思想：ID3 算法以信息增益作为特征选择的准则，倾向于选择信息增益大的特征进行划分。
信息增益：信息增益是基于信息熵的概念。信息熵是衡量数据不确定性的指标，对于一个分类问题，设数据集 $D$ 中第 $k$ 类样本所占的比例为 $p_k$ $(k = 1,2,\cdots,K)$ ，则数据集 $D$ 的信息熵为：
$H(D)=-\sum_{k = 1}^{K}p_k\log_2p_k$
假设使用特征 $A$ 对数据集 $D$ 进行划分，划分后得到 $V$ 个子集 $D_1,D_2,\cdots,D_V$ ，每个子集 $D_v$ 的样本数占总样本数的比例为 $\frac{|D_v|}{|D|}$ ，则特征 $A$ 对数据集 $D$ 的信息增益为：
$g(D,A)=H(D)-\sum_{v = 1}^{V}\frac{|D_v|}{|D|}H(D_v)$
算法步骤：
1. 计算数据集 $D$ 的信息熵 $H(D)$ 。
2. 对每个特征 $A$ ，计算其对数据集 $D$ 的信息增益 $g(D,A)$ 。
3. 选择信息增益最大的特征作为当前节点的划分特征。
4. 根据该特征的不同取值将数据集 $D$ 划分为不同的子集，对每个子集递归地重复上述步骤，直到子集的样本都属于同一类别或没有可用的特征为止。

3. C4.5 算法原理

核心思想：C4.5 算法是对 ID3 算法的改进，它使用信息增益比作为特征选择的准则，克服了 ID3 算法倾向于选择取值较多的特征的缺点。
信息增益比：信息增益比是信息增益与特征 $A$ 的固有值 $IV(A)$ 的比值，特征 $A$ 的固有值定义为：
$IV(A)=-\sum_{v = 1}^{V}\frac{|D_v|}{|D|}\log_2\frac{|D_v|}{|D|}$
特征 $A$ 对数据集 $D$ 的信息增益比为：
$g_R(D,A)=\frac{g(D,A)}{IV(A)}$
算法步骤：与 ID3 算法类似，只是在选择划分特征时使用信息增益比代替信息增益。

4. CART 算法原理

核心思想：CART（Classification and Regression Trees）算法既可以用于分类问题，也可以用于回归问题。对于分类问题，使用基尼指数作为特征选择的准则；对于回归问题，使用均方误差作为划分准则。
基尼指数：对于一个分类问题，数据集 D 的基尼指数定义为：
$Gini(D)=1-\sum_{k = 1}^{K}p_k^2$
假设使用特征 $A$ 及其取值 $a$ 对数据集 $D$ 进行划分，得到两个子集 $D_1$ 和 $D_2$ ，则特征 $A$ 在取值 $a$ 处的基尼指数为：
$Gini(D,A,a)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$
算法步骤：
- 分类树：
  1. 对于每个特征 $A$ 及其每个可能的取值 $a$ ，计算基尼指数 $Gini(D,A,a)$ 。
  2. 选择基尼指数最小的特征和取值作为当前节点的划分条件。
  3. 根据划分条件将数据集 $D$ 划分为两个子集，对每个子集递归地重复上述步骤，直到满足停止条件（如子集样本数小于某个阈值）。
- 回归树：选择使得划分后两个子集的均方误差之和最小的特征和划分点进行划分。

决策树模型实现（scikit - learn）

代码实现步骤

import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
from sklearn.tree import plot_tree

# 1. 加载数据集
iris = load_iris()
X = iris.data
y = iris.target

# 2. 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. 创建决策树分类器
# 使用 CART 算法（默认）
clf = DecisionTreeClassifier(random_state=42)

# 4. 训练模型
clf.fit(X_train, y_train)

# 5. 进行预测
y_pred = clf.predict(X_test)

# 6. 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确率: {accuracy}")

# 7. 可视化决策树
plt.figure(figsize=(12, 8))
plot_tree(clf, feature_names=iris.feature_names, class_names=iris.target_names, filled=True)
plt.show()