当前位置：首页 > news >正文

【监督学习】岭回归算法步骤及matlab实现

news 2025/7/4 7:58:13

岭回归算法

- 岭回归算法
- - 1.算法步骤
  - 2.MATLAB 实现
  - 参考资料

岭回归算法

岭回归是一种用于解决线性回归中多重共线性问题的正则化方法。它通过在损失函数中加入 L2 正则化项（即权重的平方和），限制模型参数的大小，从而避免过拟合并提高模型的泛化能力。岭回归的损失函数为： $J(\mathbf{w}) = \|\mathbf{y} - \mathbf{X}\mathbf{w}\|_2^2 + \alpha \|\mathbf{w}\|_2^2$ 其中：

$\mathbf{y}$ 是目标变量（ $n \times 1$ 向量）；
$\mathbf{X}$ 是特征矩阵（ $n \times p$ 矩阵）；
$\mathbf{w}$ 是权重向量（ $p \times 1$ 向量）；
$\alpha$ 是正则化参数（控制正则化强度）。

特点：

L2正则化：通过在损失函数中加入权重参数的平方和（L2范数）作为惩罚项，控制模型复杂度；
参数压缩：所有特征的权重会被均匀压缩，但不会完全为零，保留所有特征；
处理多重共线性：通过正则化稳定参数估计，降低高共线性特征导致的方差；
解析解存在：通过矩阵运算直接求解权重，公式为 $\mathbf{w} = (\mathbf{X}^T \mathbf{X} + \alpha \mathbf{I})^{-1} \mathbf{X}^T \mathbf{y}$ ；
需标准化数据：正则化项对特征尺度敏感，需提前标准化特征以保证公平惩罚。

优势：

解决多重共线性：当特征高度相关时，普通线性回归的参数估计方差大，而岭回归通过正则化降低方差，提升稳定性；
防止过拟合：正则化项限制模型复杂度，减少对噪声数据的敏感度，增强泛化能力；
数值稳定性：加入 $\alpha \mathbf{I}$ 确保矩阵可逆，即使原始 $\mathbf{X}^T \mathbf{X}$ 是奇异矩阵（如特征数大于样本数）；
全局最优解：解析解直接通过矩阵运算获得，无需依赖迭代优化算法；
贝叶斯解释：可视为贝叶斯线性回归的特例，权重服从高斯先验分布，正则化参数 $\alpha$ 对应先验精度。

劣势：

无法特征选择：L2 正则化仅压缩权重但不将其置零，所有特征均保留，无法自动剔除无关特征（需结合其他方法筛选特征）；
依赖正则化参数 $\alpha$ ： $\alpha$ 需通过交叉验证或网格搜索调优，增加计算成本；选择不当可能导致欠拟合（ $\alpha$ 过大）或过拟合（ $\alpha$ 过小）；
对无关特征敏感：若数据中存在大量无关特征，正则化可能无法有效抑制其影响，模型性能可能劣于 Lasso 或弹性网络；
计算复杂度：矩阵求逆的复杂度为 $O(p^3)$ （ $p$ 为特征数），特征维度极高时计算成本显著增加；
假设线性关系：与普通线性回归一样，岭回归假设特征与目标变量间存在线性关系，对非线性关系建模能力有限。

指标	岭回归 (Ridge)	Lasso 回归
正则化类型	L2 范数	L1 范数
参数特性	压缩权重，非稀疏解	稀疏解（部分权重为零）
特征选择	无	有
多重共线性处理	优秀	一般
计算复杂度	较高（需矩阵求逆）	较低（可迭代优化）
适用场景	高共线性数据	高维数据且需特征选择

1.算法步骤

数据准备
- 目标：准备用于训练和测试的数据集。
- 输入：
  - 特征矩阵 $\mathbf{X}$ （ $n \times p$ ， $n$ 为样本数， $p$ 为特征数）。
  - 目标变量 $y$ （ $n \times 1$ ）。
- 输出：原始数据集 $\mathbf{X}$ 和 $y$ 。
数据标准化
- 目标：将特征和目标变量标准化，消除量纲影响。
- 步骤：
  - 对特征矩阵 $\mathbf{X}$ 的每一列进行标准化： $\mathbf{X}_{ij} = \frac{X_{ij} - \mu_j}{\sigma_j}$ 其中 $\mu_j$ 和 $\sigma_j$ 分别是第 $j$ 列的均值和标准差。
  - 对目标变量 $y$ 进行标准化： $y_i = \frac{y_i - \mu_y}{\sigma_y}$
- 输出：标准化后的 $\mathbf{X}$ 和 $y$ 。
添加偏置项
- 目标：在特征矩阵中添加一列全 1 的偏置项，用于拟合截距。
- 步骤：
  - 将 $\mathbf{X}$ 扩展为 $[\mathbf{1},\mathbf{X}]$ ，其中 $\mathbf{1}$ 是 $n \times 1$ 的全 1 列。
- 输出：扩展后的特征矩阵 $\mathbf{X} (n×(p+1))$ 。
初始化正则化参数 alpha
- 目标：设置正则化参数 $α$ 的初始值。
- 步骤：
  - 选择一个初始值（如 $α = 1$ ）。
  - 如果需要选择最优 $α$ ，可以定义一组候选值（如 logspace(-3, 3, 100)）。
- 输出：初始或候选的 $α$ 值。
计算岭回归权重
- 目标：通过解析解计算岭回归的权重向量 $\mathbf{w}$ 。
- 步骤：
  - 计算岭回归的解析解： $\mathbf{w} = (\mathbf{X}^T \mathbf{X} + \alpha \mathbf{I})^{-1} \mathbf{X}^T \mathbf{y}$ 其中 $\mathbf{I}$ 是单位矩阵（注意不对偏置项正则化）。
- 输出：权重向量 $\mathbf{w}((p+1)×1)$ 。
模型预测
- 目标：使用训练好的权重对数据进行预测。
- 步骤：
  - 计算预测值： $\hat{y} = \mathbf{X} \mathbf{w}$
- 输出：预测值 $\hat{y}$ 。
模型评估
- 目标：评估模型的性能。
- 步骤：
  - 计算均方误差（MSE）： $\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$
  - 计算决定系数（ $R^2$ ）： $R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$
- 输出：MSE 和 $R^2$ 。
是否选择最优 alpha
- 目标：决定是否需要通过交叉验证选择最优的正则化参数 $α$ 。
- 步骤：
  - 如果数据量较大或需要更精确的模型，选择“是”。
  - 如果仅需快速训练模型，选择“否”。
- 输出：决策结果。
交叉验证选择 alpha
- 目标：通过交叉验证选择最优的正则化参数 $α$ 。
- 步骤：
  - 将数据集分为 $k$ 折（如 $k = 5$ ）。
  - 对每个候选 $α$ ，计算 $k$ 折交叉验证的平均 MSE。
  - 选择使 MSE 最小的 $α$ 。
- 输出：最优的 $α$ 。
使用最优 alpha 重新训练
- 目标：使用最优 $α$ 重新训练模型。
- 步骤：
  - 使用最优 $α$ 计算权重 $\mathbf{w}$ 。
- 输出：最终模型权重 $\mathbf{w}$ 。
输出最终模型
- 目标：保存或输出训练好的模型。
- 步骤：
  - 保存权重 $\mathbf{w}$ 和最优 $α$ 。
  - 输出模型性能（MSE 和 $R^2$ ）。
- 输出：最终模型及其性能。

2.MATLAB 实现

岭回归算法matlab实现结果①
岭回归算法matlab实现结果②
岭回归算法matlab实现结果③

%% 岭回归算法实现
clc; clear; close all;

%% 1. 数据准备
rng(42); % 固定随机种子
n = 100; % 样本数量
p = 10;  % 特征数量

% 生成特征矩阵 X（含多重共线性）
X = randn(n, p);
X(:, 3) = X(:, 1) + 0.5 * randn(n, 1); % 第3列与第1列高度相关
X(:, 5) = X(:, 2) - 0.3 * randn(n, 1); % 第5列与第2列高度相关

% 生成目标变量 y（线性关系 + 噪声）
true_weights = [3; -2; 1; 1.5; 0; 0; 3; 0; 0; 0]; % 真实权重（部分为0）
y = X * true_weights + randn(n, 1) * 2; % 添加噪声

% 标准化数据
X = zscore(X); % 标准化特征
y = zscore(y); % 标准化目标变量

% 添加偏置项
X = [ones(n, 1), X]; % 添加全1列

%% 2. 岭回归实现
alpha = 1; % 正则化参数
I = eye(p + 1); % 单位矩阵（注意维度）
I(1, 1) = 0;   % 不对偏置项正则化

% 计算岭回归权重
w = (X' * X + alpha * I) \ (X' * y);

% 提取权重（去掉偏置项）
weights = w(2:end);

%% 3. 模型评估
y_pred = X * w; % 预测值
mse = mean((y - y_pred).^2); % 均方误差
r2 = 1 - sum((y - y_pred).^2) / sum((y - mean(y)).^2); % 决定系数

fprintf('均方误差 (MSE): %.4f\n', mse);
fprintf('决定系数 (R²): %.4f\n', r2);

%% 4. 可视化结果
figure;

% 真实权重 vs 岭回归权重
subplot(1, 2, 1);
bar([true_weights, weights]);
legend('真实权重', '岭回归权重');
xlabel('特征索引');
ylabel('权重值');
title('权重对比');

% 预测值 vs 真实值
subplot(1, 2, 2);
scatter(y, y_pred, 'filled');
hold on;
plot([min(y), max(y)], [min(y), max(y)], 'r--', 'LineWidth', 2);
xlabel('真实值');
ylabel('预测值');
title('预测值 vs 真实值');
grid on;

%% 5. 正则化参数选择（交叉验证）
alphas = logspace(-3, 3, 100); % 正则化参数范围
mse_cv = zeros(size(alphas));

% 5折交叉验证
k = 5;
cv = cvpartition(n, 'KFold', k);

for i = 1:length(alphas)
    alpha = alphas(i);
    mse_fold = zeros(k, 1);
    
    for fold = 1:k
        % 划分训练集和验证集
        train_idx = cv.training(fold);
        test_idx = cv.test(fold);
        X_train = X(train_idx, :);
        y_train = y(train_idx);
        X_test = X(test_idx, :);
        y_test = y(test_idx);
        
        % 训练岭回归模型
        w_cv = (X_train' * X_train + alpha * I) \ (X_train' * y_train);
        y_pred_cv = X_test * w_cv;
        
        % 计算验证集MSE
        mse_fold(fold) = mean((y_test - y_pred_cv).^2);
    end
    
    % 平均MSE
    mse_cv(i) = mean(mse_fold);
end

% 选择最优 alpha
[best_mse, best_idx] = min(mse_cv);
best_alpha = alphas(best_idx);

fprintf('最优正则化参数 alpha: %.4f\n', best_alpha);
fprintf('交叉验证最小 MSE: %.4f\n', best_mse);

% 可视化交叉验证结果
figure;
semilogx(alphas, mse_cv, 'LineWidth', 2);
xline(best_alpha, 'r--', '最优 alpha', 'LineWidth', 1.5);
xlabel('正则化参数 alpha');
ylabel('交叉验证 MSE');
title('正则化参数选择');
grid on;