当前位置：首页 > news >正文

回归树：从原理到Python实战

news 2025/7/1 18:18:39

回归树：从原理到Python实战

在机器学习的广阔领域中，决策树是一种极为直观且强大的算法，它既能处理分类问题，也能解决回归任务。本文将聚焦于回归树，深入探讨其原理，并通过Python代码实战，带大家领略它的魅力与应用。

一、回归树原理剖析

回归树是决策树的一种变体，与分类树不同，分类树输出的是样本所属的类别，而回归树输出的是一个连续值。回归树基于树状结构，通过对输入特征空间进行递归划分，将其分割成若干个区域，每个区域对应一个预测值。

其核心思想是通过某种准则（如最小化均方误差），寻找最优的划分特征和划分点，使得划分后的每个子区域内的样本目标值尽可能相似。具体过程如下：

初始化：从根节点开始，将所有样本都放在该节点。
划分节点：遍历所有特征及其可能的划分点，计算每个划分方案下的损失函数（如均方误差），选择使损失函数最小的特征和划分点，将当前节点划分为两个子节点。
递归划分：对每个子节点重复上述划分过程，直到满足停止条件（如节点内样本数量小于某个阈值、树的深度达到限制等）。
生成预测值：对于每个叶节点，计算其中样本目标值的均值，作为该节点的预测值。

以预测房屋价格为例，假设我们有房屋面积、房龄、房间数量等特征。回归树会根据这些特征不断划分样本空间，比如先根据房屋面积将样本分为大面积和小面积两组，然后在每组中再根据房龄等其他特征进一步划分，最终每个叶节点对应一个预测的房屋价格。

二、Python代码实战

下面我们结合开头给出的Python代码，一步步实现回归树模型，并详细解释每一步的作用。

1. 导入必要的库

import pandas as pd
from sklearn import tree

pandas库用于数据的读取和处理，它提供了DataFrame等数据结构，方便我们对数据进行各种操作。sklearn（scikit-learn）是Python中常用的机器学习库，其中的tree模块包含了决策树相关的算法实现，我们将使用其中的DecisionTreeRegressor类来构建回归树模型。

2. 读取数据

data = pd.read_csv("data.csv")

这里使用pandas的read_csv函数读取存储在data.csv文件中的数据，并将其存储在data变量中。假设data.csv文件包含了我们用于回归任务的数据集，每一行代表一个样本，每一列代表一个特征和目标变量。

3. 划分特征和目标变量

x = data.iloc[:,:-1]
y = data.iloc[:,-1]

通过iloc方法对数据进行切片操作。x = data.iloc[:,:-1]表示选取data中除最后一列以外的所有列作为特征变量，存储在x中；y = data.iloc[:,-1]表示选取data中的最后一列作为目标变量，存储在y中。例如，如果数据集中前几列是房屋的各种特征，最后一列是房屋价格，那么x就是特征矩阵，y就是对应的价格向量。

4. 构建和训练回归树模型

reg = tree.DecisionTreeRegressor()
reg = reg.fit(x,y)

首先创建一个DecisionTreeRegressor类的实例reg，此时我们可以根据需要设置一些参数，如max_depth（树的最大深度）、min_samples_split（节点划分所需的最小样本数）等，如果不设置，将使用默认参数。然后使用fit方法将模型拟合到训练数据x和y上，通过训练，模型会学习到特征与目标变量之间的关系。

5. 进行预测

y_pr = reg.predict(x)
print(y_pr)

使用训练好的模型reg的predict方法对训练数据x进行预测，得到预测值y_pr，并将其打印输出。这些预测值是回归树模型根据学到的关系对每个样本的目标变量的估计。

6. 评估模型性能

score = reg.score(x,y)
print(score)

调用模型的score方法，传入特征数据x和真实的目标变量y，计算模型的性能得分。在回归任务中，score方法默认返回的是决定系数 $R^2$ ，它衡量了模型对数据的拟合程度， $R^2$ 的值越接近1，表示模型的拟合效果越好；越接近0，表示模型的预测效果越差。运行结果如下
在这里插入图片描述