线性回归与 Softmax 回归:深度学习基础模型及训练逻辑解析
在深度学习领域,线性回归与 Softmax 回归是两大基础模型,分别对应 “预测连续值” 与 “划分离散类别” 两大核心任务,二者均依赖梯度下降等优化算法实现模型迭代。以下从模型本质、核心逻辑、训练方法及应用场景等方面,对其进行系统总结。
一、线性回归:用 “规律” 预测连续值
线性回归是深度学习中最基础的模型,核心目标是根据已知特征,预测一个连续且有范围的结果(如价格、温度、销量等),其本质是通过数据挖掘 “特征” 与 “结果” 之间的线性关联。
1. 核心逻辑:从 “生活经验” 到 “数学公式”
生活中,我们判断事物价值时总会总结规律(比如 “学区房比普通房贵,房龄短的比房龄长的贵”),线性回归正是将这种规律转化为数学公式。以 “房价预测” 为例:
- 输入特征:房屋的卧室数量(7 个)、楼层(2 层)、车库数量(2 个)、所属学区(帕洛阿尔托学区)等;
- 线性关联:通过分析历史成交数据,得出 “每多 1 个卧室,房价涨 10 万;带 1 个车库,房价涨 20 万” 等规律;
- 数学表达:用公式
y = Xw + b
量化规律,其中y
为预测结果(房价),X
为所有输入特征,w
为每个特征的 “权重”(如卧室 10 万 / 个、车库 20 万 / 个),b
为基础值(如无额外特征时的基准房价 50 万)。
2. 模型本质:极简的 “神经网络”
线性回归可看作只有 “输入层” 和 “输出层” 的单层神经网络:输入层接收房屋卧室数、车库数等特征,输出层直接输出预测房价,而 “权重 w” 与 “基础值 b” 则是模型需要通过训练优化的核心参数。
二、Softmax 回归:用 “概率” 划分离散类别
当任务从 “预测连续值” 转为 “划分离散类别”(如判断图片是猫还是狗、评论是正面还是负面)时,Softmax 回归成为核心模型。它在 linear regression 的基础上,通过 “概率转化” 实现对多类别的判断。
1. 核心逻辑:从 “分数” 到 “概率”
Softmax 回归的核心是将 “线性输出” 转化为 “类别概率”,分为两步:
- 第一步:算 “原始分数”:先用线性公式(类似线性回归)计算输入属于每个类别的 “原始分数”。例如,对手写数字图片,算出其属于 “0” 的分数为 2、属于 “1” 的分数为 - 1、属于 “2” 的分数为 3(分数越高,越可能属于该类别);
- 第二步:转 “类别概率”:通过 Softmax 函数,将 “原始分数” 转化为总和为 1 的概率。该函数先通过指数运算让所有分数变为正数,再用每个分数除以总分数,最终输出每个类别的概率。比如原始分数 [1, -1, 2],经转化后变为 [0.26, 0.04, 0.7],即 “属于第一类的概率 26%、第二类 4%、第三类 70%”,以此确定最可能的类别。
2. 典型应用:覆盖多场景分类任务
Softmax 回归广泛应用于各类分类场景,例如:
- 图像分类:MNIST 数据集(识别 0-9 手写数字,10 类别)、ImageNet 数据集(识别自然对象,1000 类别);
- 文本分类:Kaggle 恶语评论分类(将评论分为 “有毒”“侮辱性”“威胁性” 等 7 类别);
- 其他场景:如医疗影像诊断(判断影像是否显示病变)、商品分类(根据特征划分商品类别)等。
三、模型训练:让预测从 “不准” 到 “精准”
无论是线性回归还是 Softmax 回归,都需要通过 “训练” 优化参数(w 和 b),核心逻辑是 “计算误差→调整参数→缩小误差”,关键依赖 “损失函数” 与 “梯度下降算法”。
1. 损失函数:给 “误差” 打分
损失函数是衡量模型预测值与真实值差距的工具,不同任务对应不同函数:
- 线性回归(连续值预测):常用平方损失(L2 损失)、绝对损失(L1 损失)及 Huber 损失。平方损失对小误差敏感,适合追求 “平稳准确” 的场景;绝对损失对极端误差更稳健;Huber 损失结合二者优势,小误差用平方损失、大误差用绝对损失;
- Softmax 回归(分类任务):核心用交叉熵损失。其逻辑是 “预测概率与真实标签越接近,损失越小”,能有效放大分类错误的影响(例如将 “真实概率 1” 预测为 “0.7”,损失显著高于平方损失),更适配分类任务需求。
2. 梯度下降:找 “缩小误差” 的最快路径
梯度下降是模型优化的核心算法,本质是 “沿着损失减少最快的方向调整参数”,类比 “下山时沿最陡的路走向山脚”:
- 核心原理:“梯度” 如同 “指南针”,指示当前位置损失减少最快的方向。模型从初始参数出发,沿梯度方向调整参数,反复迭代直至损失最小(到达 “山脚”);
- 三种实现方式:
- 普通梯度下降:用全部数据计算梯度,方向精准但效率低;
- 随机梯度下降(SGD):每次用 1 个数据计算梯度,效率高但方向波动大;
- 小批量随机梯度下降(Mini-batch SGD):每次用一小批数据(如 10-100 个)计算梯度,兼顾效率与稳定性,是深度学习默认算法;
- 关键超参数:
- 学习率:每次参数调整的 “步长”,太大易 “越过最优解”,太小易 “迭代过慢”;
- 批量大小:小批量随机梯度下降中 “每批数据的数量”,太大浪费资源,太小方向不稳。
四、核心对比与总结
线性回归与 Softmax 回归虽针对不同任务,但共享 “线性基础” 与 “梯度下降优化逻辑”,二者核心差异与关联如下:
维度 | 线性回归 | Softmax 回归 |
---|---|---|
核心任务 | 预测连续值(如房价、销量) | 划分离散类别(如图像、文本分类) |
输出结果 | 单个连续数 | 各分类的概率(总和为 1) |
核心函数 | 线性公式y = Xw + b | 线性公式 + Softmax 函数 |
损失函数 | 平方损失、L1 损失、Huber 损失 | 交叉熵损失 |
模型本质 | 单层神经网络 | 单层全连接神经网络(输出层神经元数 = 类别数) |
简言之,线性回归是 “用规律算数值”,Softmax 回归是 “用概率分类别”,二者均通过 “损失函数量化误差、梯度下降优化参数” 实现精准预测,是深度学习中解决 “回归” 与 “分类” 问题的基础框架,也是复杂神经网络(如 CNN、Transformer)的核心组成单元。