线性回归与 Softmax 回归:深度学习入门核心模型解析
在深度学习的知识体系中,线性回归与 Softmax 回归是两大基础且关键的模型。线性回归作为回归任务的入门典范,为理解模型构建与参数优化提供了基础框架;Softmax 回归则是解决多分类问题的重要工具,是连接简单模型与复杂神经网络的桥梁。本文将结合实际应用场景,从模型原理、优化方法到损失函数,全面解析这两大模型,帮助读者夯实深度学习基础。
一、线性回归:从房价预测看回归任务本质
线性回归的核心目标是学习一个线性函数,建立输入特征与连续输出标签之间的映射关系,其典型应用场景之一便是房价预测。
(一)线性回归的模型构建
当我们看中一套房子时,通常会根据房屋的面积、卧室数量、地段等特征(输入X)来估计其价格(输出y)。线性回归通过以下公式实现这种映射:
- 单样本场景:y=wTx+b,其中x是单个样本的特征向量,w是特征权重向量,b是偏置项,
wTx表示向量w与x的内积。 - 多样本场景:y=Xw+b,其中X是包含多个样本的特征矩阵(每行代表一个样本,每列代表一个特征),w是特征权重向量,b是偏置项,y是对应样本的预测输出向量。
(二)线性回归的优化核心:梯度下降法
线性回归的训练过程,本质是寻找最优参数(w和b),使模型预测值与真实值的差距(损失)最小化。这一过程依赖于梯度下降法,其核心逻辑与优化步骤如下:
1. 梯度的定义与意义
梯度是由函数所有变量的偏导数汇总而成的向量,具有两个关键特性:
- 梯度指向函数值增加最快的方向,因此其反方向是函数值减小最快的方向,这为寻找损失最小值提供了 “方向指引”。
- 离函数最小值点越远,梯度的绝对值越大,意味着在远离最优解时,参数调整的 “步幅” 可更大;靠近最优解时,步幅会自动减小,避免越过最优解。
2. 梯度下降的迭代流程
梯度下降通过 “沿梯度反方向迭代更新参数” 实现损失最小化,具体步骤如下:
- 初始化参数:随机设定初始权重和偏置。
- 计算梯度:根据当前参数,计算损失函数对w和b的偏导数(即梯度)。
- 重复迭代:直至损失函数值收敛(变化幅度小于设定阈值)或达到预设迭代次数。
3. 梯度下降的关键变种:小批量随机梯度下降
在实际训练中,全量梯度下降(使用所有样本计算梯度)会因样本量过大导致计算效率低下,因此常用小批量随机梯度下降(Mini-Batch SGD),其核心特点是:
- 每次迭代仅使用一小部分样本(批量) 计算梯度,平衡计算效率与梯度估计的准确性。
- 批量大小是关键超参数,需合理选择:
- 批量值不能太小:过小会导致每次计算的梯度随机性强,难以稳定收敛,且无法充分利用 GPU 等硬件的并行计算能力,浪费资源。
- 批量值不能太大:过大则接近全量梯度下降,计算耗时增加,且可能陷入局部最优解,失去随机梯度的探索性。
4. 学习率的选择原则
学习率是梯度下降的另一个核心超参数,直接影响模型收敛效果:
- 学习率不要太大:过大会导致参数更新步幅过大,可能越过损失最小值点,使损失函数值震荡甚至发散。
- 学习率不要太小:过小会导致参数更新缓慢,模型收敛周期过长,且可能陷入局部最优解或鞍点。
实际应用中,常采用 “学习率衰减” 策略(如 Standard LR Schedule),即训练初期使用较大学习率加速收敛,后期逐渐减小学习率,确保稳定收敛到最优解。
二、Softmax 回归:从手写数字识别看分类任务解决方案
线性回归适用于连续值预测(回归任务),而现实中更多场景需要预测离散类别(分类任务),如手写数字识别(10 类)、蛋白质图像分类(28 类)、恶语评论分类(7 类)等。Softmax 回归正是为多分类任务设计的经典模型。
(一)回归任务与分类任务的核心差异
要理解 Softmax 回归,首先需明确回归与分类的本质区别:
任务类型 | 输出特点 | 核心目标 | 典型场景 |
---|---|---|---|
回归任务 | 单个连续值 | 最小化预测值与真实值的绝对 / 平方误差 | 房价预测、温度预测 |
分类任务 | 多个离散类别 | 最大化正确类别的预测概率(或置信度) | 手写数字识别、图像分类、文本情感分析 |
例如,在 MNIST 手写数字识别任务中,模型需输出输入图像属于 “0-9” 中每个数字的概率,最终选择概率最大的类别作为预测结果;在 Kaggle 恶语评论分类任务中,需判断一条评论是否属于 “toxic(有毒)”“insult(侮辱)” 等 7 类中的某一类或多类。
(二)Softmax 回归的模型结构
Softmax 回归可视为 “单层全连接神经网络”,其结构与线性回归的核心区别在于输出层设计:
- 输入层:接收样本特征(如手写数字图像的像素值),特征数量由任务决定(如 MNIST 图像为 28×28 像素,输入特征数为 784)。
- 输出层:神经元数量等于分类任务的类别数(如 MNIST 任务输出层有 10 个神经元,对应 “0-9” 10 个类别)。
(三)Softmax 运算:将置信度转化为概率分布
Softmax 回归的核心创新是Softmax 运算,其作用是将输出层的原始置信度转化为符合概率性质的预测值(非负、总和为 1),
以原始置信度为例。
(四)分类任务的专属损失函数:交叉熵损失
在回归任务中,常用均方损失(L2 损失)或绝对损失(L1 损失),但这类损失函数在分类任务中存在梯度消失、收敛缓慢等问题。Softmax 回归通常采用交叉熵损失,其核心是 “衡量模型预测概率分布与真实标签概率分布的差距”。
三、总结:线性回归与 Softmax 回归的核心要点
- 模型定位:线性回归是回归任务的基础模型,输出连续值;Softmax 回归是多分类任务的入门模型,通过 Softmax 运算输出概率分布,本质是单层全连接神经网络。
- 优化核心:两者均依赖梯度下降法(及小批量随机梯度下降变种)寻找最优参数,关键超参数为批量大小(平衡效率与稳定性)和学习率(控制收敛速度与稳定性)。
- 损失函数:回归任务常用均方损失、L1 损失;多分类任务专属交叉熵损失,通过衡量概率分布差距实现优化。
掌握线性回归与 Softmax 回归,不仅能解决简单的回归与分类问题,更能为后续学习深度神经网络(如 CNN、Transformer)奠定基础 —— 复杂网络的本质可视为 “多层线性 / 非线性变换的堆叠”,而参数优化逻辑与损失函数设计思路,均源于这两大基础模型。