当前位置：首页 > news >正文

线性回归与 Softmax 回归核心内容总结

news 2025/9/18 7:36:30

一、线性回归：解决连续值预测问题

1. 核心概念与应用场景

线性回归是用于连续值预测的基础模型，典型应用为房价预测：通过房屋的卧室数量、停车空间、周边学校等特征（输入），估算房屋价格（连续输出值），核心是建立输入特征与输出连续值之间的线性映射关系。

2. 模型表达式

单个样本：表达式为 \(y = w^T x + b\)，其中 x 为输入特征向量，w 为权重向量（衡量各特征对输出的影响），b 为偏置项（修正模型基准），y 为预测输出。
多个样本：可简化为矩阵形式 \(y = Xw + b\)，X 为样本特征矩阵（每行对应一个样本的特征），提高计算效率。
神经网络视角：线性回归可看作单层神经网络，仅包含输入层（接收特征 \(x_1,x_2,...x_d\)）和输出层（输出预测值 y），输出层神经元通过权重 \(w_1,w_2,...\) 与输入层连接。

3. 训练核心：优化与超参数

损失函数：用于衡量预测值与真实值的差距，是模型优化的目标（需最小化），线性回归常用平方损失（L2 损失），即预测值与真实值差值的平方。
优化算法：核心为梯度法，通过计算损失函数对参数（w 和 b）的梯度，沿梯度反方向更新参数（因梯度反方向是函数值下降最快的方向），逐步降低损失。
- 随机梯度下降（SGD）：每次随机选取部分样本计算梯度并更新参数，平衡计算效率与优化效果，是深度学习常用基础算法。
- 小批量随机梯度下降：SGD 的改进版，每次选取 “小批量” 样本（而非单个或全部样本）计算梯度，核心是合理选择 “批量值”：过小则无法充分利用计算资源，过大则浪费资源且降低更新灵活性。
关键超参数：
- 学习率：控制参数更新的步长，需合理设置 —— 过大会导致参数更新不稳定（难以收敛到最小值），过小则会使模型训练速度过慢。
- 批量大小：小批量随机梯度下降中每次选取的样本数量，需在计算效率与优化效果间平衡。

二、Softmax 回归：解决多类别分类问题

1. 核心定位与应用场景

Softmax 回归是多类别分类的基础模型，区别于线性回归的 “连续值预测”，其目标是预测样本属于多个离散类别的概率（如手写数字识别（10 类）、ImageNet 图像分类（1000 类）、维基百科恶语评论分类（7 类）等）。

2. 模型核心：从 “线性输出” 到 “概率分布”

网络结构：本质是单层全连接神经网络，输入层接收样本特征，输出层神经元数量等于类别数量（如 10 类分类任务输出层设 10 个神经元），每个输出神经元对应一个类别的 “原始置信度”\(o_1,o_2,...o_k\)（k 为类别数）。
Softmax 运算：将输出层的原始置信度转换为符合概率分布的预测值（非负且总和为 1），公式为 \(y_i = \frac{\exp(o_i)}{\sum_{k}\exp(o_k)}\)，其中 \(y_i\) 表示样本属于第 i 类的预测概率，最终取概率最大的类别作为预测结果。

3. 损失函数：交叉熵损失

由于 Softmax 回归输出为概率分布，平方损失（L2 损失）不再适用，核心采用交叉熵损失，公式为 \(H(p,q) = -\sum p_i \log(q_i)\)，其中 p 是样本真实概率分布（如 “属于第 3 类” 则真实分布为 [0,0,1,...,0]），q 是模型输出的预测概率分布，交叉熵损失能更精准地衡量两个概率分布的差异，推动模型优化。

三、两类模型的核心差异

维度	线性回归	Softmax 回归
任务目标	预测连续值（如房价、温度）	预测多类别概率（离散分类）
输出形式	单个连续数值	多个类别概率（和为 1）
输出层设计	1 个神经元	神经元数量 = 类别数
核心运算	线性映射（\(y=w^Tx+b\)）	线性映射 + Softmax 运算
常用损失函数	平方损失（L2 损失）	交叉熵损失