当前位置：首页 > news >正文

线性回归与 Softmax 回归：从基础模型到深度学习入门

news 2025/9/18 7:24:05

在深度学习的知识体系中，线性回归与 Softmax 回归是两大基石模型 —— 前者是解决连续值预测的 “入门利器”，后者则是打通 “回归到分类” 的关键桥梁。本文将结合基础原理、核心算法与实际应用场景，带你系统梳理这两个模型的核心逻辑，为深度学习进阶打下坚实基础。

一、线性回归：连续值预测的 “入门款”

线性回归的本质是 “用线性关系拟合数据，实现连续值预测”，比如根据房屋面积、地段等特征估计房价，或是根据历史销量预测未来业绩。它的核心逻辑简单易懂，却蕴含了深度学习中 “模型构建 - 损失计算 - 参数优化” 的完整流程。

1. 核心原理：用线性方程描述数据关系

线性回归的核心是构建 “输入特征” 与 “输出预测值” 之间的线性映射，最经典的单特征场景可表示为：

y = wx + b

其中，x是输入特征（如房屋面积），y是预测输出（如房价），w（权重）表示特征对输出的影响程度（面积每增加 1㎡，房价增加w元），b（偏置）是基础偏移量（无特征输入时的基准值）。

当输入包含多个特征（如房屋面积、卧室数量、距离地铁的距离）时，模型会扩展为多元线性回归，用向量形式更简洁地表示为：

y = Xw + b

这里X是特征矩阵（每行代表一个样本，每列代表一个特征），w是权重向量，通过矩阵运算实现多特征对输出的综合影响。

2. 从 “预测” 到 “优化”：损失函数与梯度下降

线性回归的目标是让 “预测值” 尽可能接近 “真实值”，这就需要通过两个关键步骤实现：定义 “误差”，再找到最小化误差的参数。

（1）损失函数：衡量预测与真实的差距

损失函数是 “量化误差” 的工具，线性回归中最常用的是均方损失（L2 损失），即计算所有样本 “预测值与真实值差值的平方和”

损失值越小，说明模型拟合效果越好 —— 我们的目标就是找到让损失函数最小的w和b。

（2）梯度下降：找到最优参数的 “导航仪”

由于无法直接通过公式求解复杂场景下的最优w和b，我们需要借助 “梯度下降” 这一优化算法，像 “走下坡路” 一样逐步逼近损失最小值。

其核心逻辑可概括为 3 步：

初始化参数：随机设定w和b的初始值；

计算梯度：梯度是 “损失函数对每个参数的偏导数汇总”，它指示了 “损失函数减小最快的方向”—— 就像指南针，告诉我们下一步往哪走能更快靠近最小值；

更新参数：沿着梯度反方向（因为梯度指向 “损失增大” 的方向）逐步调整参数

（3）优化升级：小批量随机梯度下降

传统梯度下降需要 “一次性计算所有样本的梯度”（即批量梯度下降），当样本量过大（如百万级）时，计算效率极低。为此，小批量随机梯度下降（Mini-batch SGD） 成为主流：

每次从所有样本中随机抽取一小批（如 32 个或 64 个样本）；

基于这一小批样本计算梯度并更新参数；

既保证了计算效率（避免全量样本的高负载），又能通过随机性避免陷入局部最小值。

需要注意的是，小批量的 “批量大小” 也是关键超参数：太小会浪费计算资源（无法利用 GPU 并行计算），太大则会降低参数更新的灵活性，通常需根据数据量和硬件性能调整（常见取值为 32、64、128）。

3. 实际应用：从 “房价预测” 看线性回归的价值

线性回归的应用场景遍布生活与工业：

房地产领域：根据房屋面积、户型、地段等特征预测房价（PPT 中 “看中一个房，估计价格出价” 的场景）；

金融领域：根据历史股价、成交量等数据预测未来股价走势；

电商领域：根据商品点击率、浏览时长预测用户购买概率（虽为概率，但本质是连续值预测）。

它的优势在于 “解释性强”—— 通过权重w的大小，能清晰判断每个特征的重要性（如 “卧室数量” 的权重比 “阳台面积” 大，说明卧室数量对房价影响更显著），这是很多复杂模型（如深度学习）难以替代的。

二、Softmax 回归：打通 “回归到分类” 的桥梁

线性回归解决 “连续值预测”，而现实中更多场景需要 “离散类别预测”—— 比如识别手写数字是 0-9 中的哪一个（10 分类）、判断评论是 “正面 / 负面 / 中性”（3 分类）。Softmax 回归正是为解决 “多分类问题” 而生，它在 linear 层的基础上增加了 “概率转换”，让模型能输出 “每个类别的置信度”。

1. 核心定位：从 “回归” 到 “分类” 的关键转变

先明确回归与分类的核心差异：

任务类型	输出形式	目标场景	示例
回归	连续值	预测具体数值	房价、销量、温度
分类	离散类别	预测属于哪一类	手写数字识别、垃圾邮件判断