线性回归与 Softmax 回归核心内容总结
一、线性回归:解决连续值预测问题
1. 核心概念与应用场景
线性回归是用于连续值预测的基础模型,典型应用为房价预测:通过房屋的卧室数量、停车空间、周边学校等特征(输入),估算房屋价格(连续输出值),核心是建立输入特征与输出连续值之间的线性映射关系。
2. 模型表达式
- 单个样本:表达式为 \(y = w^T x + b\),其中 x 为输入特征向量,w 为权重向量(衡量各特征对输出的影响),b 为偏置项(修正模型基准),y 为预测输出。
- 多个样本:可简化为矩阵形式 \(y = Xw + b\),X 为样本特征矩阵(每行对应一个样本的特征),提高计算效率。
- 神经网络视角:线性回归可看作单层神经网络,仅包含输入层(接收特征 \(x_1,x_2,...x_d\))和输出层(输出预测值 y),输出层神经元通过权重 \(w_1,w_2,...\) 与输入层连接。
3. 训练核心:优化与超参数
- 损失函数:用于衡量预测值与真实值的差距,是模型优化的目标(需最小化),线性回归常用平方损失(L2 损失),即预测值与真实值差值的平方。
- 优化算法:核心为梯度法,通过计算损失函数对参数(w 和 b)的梯度,沿梯度反方向更新参数(因梯度反方向是函数值下降最快的方向),逐步降低损失。
- 随机梯度下降(SGD):每次随机选取部分样本计算梯度并更新参数,平衡计算效率与优化效果,是深度学习常用基础算法。
- 小批量随机梯度下降:SGD 的改进版,每次选取 “小批量” 样本(而非单个或全部样本)计算梯度,核心是合理选择 “批量值”:过小则无法充分利用计算资源,过大则浪费资源且降低更新灵活性。
- 关键超参数:
- 学习率:控制参数更新的步长,需合理设置 —— 过大会导致参数更新不稳定(难以收敛到最小值),过小则会使模型训练速度过慢。
- 批量大小:小批量随机梯度下降中每次选取的样本数量,需在计算效率与优化效果间平衡。
二、Softmax 回归:解决多类别分类问题
1. 核心定位与应用场景
Softmax 回归是多类别分类的基础模型,区别于线性回归的 “连续值预测”,其目标是预测样本属于多个离散类别的概率(如手写数字识别(10 类)、ImageNet 图像分类(1000 类)、维基百科恶语评论分类(7 类)等)。
2. 模型核心:从 “线性输出” 到 “概率分布”
- 网络结构:本质是单层全连接神经网络,输入层接收样本特征,输出层神经元数量等于类别数量(如 10 类分类任务输出层设 10 个神经元),每个输出神经元对应一个类别的 “原始置信度”\(o_1,o_2,...o_k\)(k 为类别数)。
- Softmax 运算:将输出层的原始置信度转换为符合概率分布的预测值(非负且总和为 1),公式为 \(y_i = \frac{\exp(o_i)}{\sum_{k}\exp(o_k)}\),其中 \(y_i\) 表示样本属于第 i 类的预测概率,最终取概率最大的类别作为预测结果。
3. 损失函数:交叉熵损失
由于 Softmax 回归输出为概率分布,平方损失(L2 损失)不再适用,核心采用交叉熵损失,公式为 \(H(p,q) = -\sum p_i \log(q_i)\),其中 p 是样本真实概率分布(如 “属于第 3 类” 则真实分布为 [0,0,1,...,0]),q 是模型输出的预测概率分布,交叉熵损失能更精准地衡量两个概率分布的差异,推动模型优化。
三、两类模型的核心差异
维度 | 线性回归 | Softmax 回归 |
---|---|---|
任务目标 | 预测连续值(如房价、温度) | 预测多类别概率(离散分类) |
输出形式 | 单个连续数值 | 多个类别概率(和为 1) |
输出层设计 | 1 个神经元 | 神经元数量 = 类别数 |
核心运算 | 线性映射(\(y=w^Tx+b\)) | 线性映射 + Softmax 运算 |
常用损失函数 | 平方损失(L2 损失) | 交叉熵损失 |