当前位置：首页 > news >正文

线性回归与 Softmax 回归：深度学习基础模型及训练逻辑解析

news 2025/9/18 14:18:32

在深度学习领域，线性回归与 Softmax 回归是两大基础模型，分别对应 “预测连续值” 与 “划分离散类别” 两大核心任务，二者均依赖梯度下降等优化算法实现模型迭代。以下从模型本质、核心逻辑、训练方法及应用场景等方面，对其进行系统总结。

线性回归是深度学习中最基础的模型，核心目标是根据已知特征，预测一个连续且有范围的结果（如价格、温度、销量等），其本质是通过数据挖掘 “特征” 与 “结果” 之间的线性关联。

生活中，我们判断事物价值时总会总结规律（比如 “学区房比普通房贵，房龄短的比房龄长的贵”），线性回归正是将这种规律转化为数学公式。以 “房价预测” 为例：

输入特征：房屋的卧室数量（7 个）、楼层（2 层）、车库数量（2 个）、所属学区（帕洛阿尔托学区）等；
线性关联：通过分析历史成交数据，得出 “每多 1 个卧室，房价涨 10 万；带 1 个车库，房价涨 20 万” 等规律；
数学表达：用公式y = Xw + b量化规律，其中y为预测结果（房价），X为所有输入特征，w为每个特征的 “权重”（如卧室 10 万 / 个、车库 20 万 / 个），b为基础值（如无额外特征时的基准房价 50 万）。

线性回归可看作只有 “输入层” 和 “输出层” 的单层神经网络：输入层接收房屋卧室数、车库数等特征，输出层直接输出预测房价，而 “权重 w” 与 “基础值 b” 则是模型需要通过训练优化的核心参数。

当任务从 “预测连续值” 转为 “划分离散类别”（如判断图片是猫还是狗、评论是正面还是负面）时，Softmax 回归成为核心模型。它在 linear regression 的基础上，通过 “概率转化” 实现对多类别的判断。

Softmax 回归的核心是将 “线性输出” 转化为 “类别概率”，分为两步：

第一步：算 “原始分数”：先用线性公式（类似线性回归）计算输入属于每个类别的 “原始分数”。例如，对手写数字图片，算出其属于 “0” 的分数为 2、属于 “1” 的分数为 - 1、属于 “2” 的分数为 3（分数越高，越可能属于该类别）；
第二步：转 “类别概率”：通过 Softmax 函数，将 “原始分数” 转化为总和为 1 的概率。该函数先通过指数运算让所有分数变为正数，再用每个分数除以总分数，最终输出每个类别的概率。比如原始分数 [1, -1, 2]，经转化后变为 [0.26, 0.04, 0.7]，即 “属于第一类的概率 26%、第二类 4%、第三类 70%”，以此确定最可能的类别。

Softmax 回归广泛应用于各类分类场景，例如：

无论是线性回归还是 Softmax 回归，都需要通过 “训练” 优化参数（w 和 b），核心逻辑是 “计算误差→调整参数→缩小误差”，关键依赖 “损失函数” 与 “梯度下降算法”。

损失函数是衡量模型预测值与真实值差距的工具，不同任务对应不同函数：

线性回归（连续值预测）：常用平方损失（L2 损失）、绝对损失（L1 损失）及 Huber 损失。平方损失对小误差敏感，适合追求 “平稳准确” 的场景；绝对损失对极端误差更稳健；Huber 损失结合二者优势，小误差用平方损失、大误差用绝对损失；
Softmax 回归（分类任务）：核心用交叉熵损失。其逻辑是 “预测概率与真实标签越接近，损失越小”，能有效放大分类错误的影响（例如将 “真实概率 1” 预测为 “0.7”，损失显著高于平方损失），更适配分类任务需求。

梯度下降是模型优化的核心算法，本质是 “沿着损失减少最快的方向调整参数”，类比 “下山时沿最陡的路走向山脚”：

核心原理：“梯度” 如同 “指南针”，指示当前位置损失减少最快的方向。模型从初始参数出发，沿梯度方向调整参数，反复迭代直至损失最小（到达 “山脚”）；
三种实现方式：
- 普通梯度下降：用全部数据计算梯度，方向精准但效率低；
- 随机梯度下降（SGD）：每次用 1 个数据计算梯度，效率高但方向波动大；
- 小批量随机梯度下降（Mini-batch SGD）：每次用一小批数据（如 10-100 个）计算梯度，兼顾效率与稳定性，是深度学习默认算法；
关键超参数：
- 学习率：每次参数调整的 “步长”，太大易 “越过最优解”，太小易 “迭代过慢”；
- 批量大小：小批量随机梯度下降中 “每批数据的数量”，太大浪费资源，太小方向不稳。

线性回归与 Softmax 回归虽针对不同任务，但共享 “线性基础” 与 “梯度下降优化逻辑”，二者核心差异与关联如下：