线性回归与 Softmax 回归核心知识点总结
一、线性回归
(一)核心应用场景
以 “房价预测” 为典型案例,通过分析房屋相关特征(如卧室数量、车库面积、所属学区等)和往年房价数据(如 A、B 等买家的历史成交价),构建模型来估计房屋价格,为出价决策提供依据。
(二)数学表达式
- 单样本形式:y=wTx+b,其中x为输入特征向量,w为权重向量,b为偏置,y为预测的连续输出值(如房价)。
- 多样本矩阵形式:y=Xw+b,X为样本特征矩阵(每行代表一个样本,每列代表一个特征),可同时对多个样本进行预测。
(三)与神经网络的关联
线性回归可视为单层神经网络,结构包含输入层和输出层:
- 输入层:接收样本特征(如房屋的卧室数、车库信息等)。
- 输出层:通过线性计算y=wTx+b得到连续预测值,无隐藏层,权重w直接连接输入与输出。
二、模型训练核心技术(优化算法与损失函数)
(一)基础优化算法:梯度法
- 核心原理
- 梯度:由函数所有变量的偏导数汇总而成的向量,例如函数f(x0,x1)=x02+x12的梯度为各变量偏导数构成的向量。
- 梯度方向特性:梯度指示的反方向是函数值减小最快的方向,但无法保证指向全局最小值,仅能确保沿该方向前进时函数值最大限度降低。
- 迭代流程:从当前参数位置出发,沿梯度反方向前进一定距离(步长由学习率控制)→ 在新位置重新计算梯度 → 重复上述步骤,逐步逼近损失函数最小值。
(二)常见梯度下降变种
算法类型 | 核心特点 | 优缺点 |
---|---|---|
随机梯度下降(SGD) | 每次仅使用单个样本计算梯度并更新参数,通过不断沿损失递减方向更新参数降低误差 | 优点:训练速度快,能快速摆脱局部最优;缺点:参数更新波动大,收敛过程不稳定 |
小批量随机梯度下降(Mini-batch SGD) | 每次使用一小批样本(如 32、64 个)计算梯度 | 优点:平衡训练速度与稳定性,是深度学习默认求解算法;缺点:需手动选择批量大小 |
(三)关键超参数选择
- 学习率
- 过大:参数更新幅度过大,可能跳过损失函数最小值,导致模型不收敛。
- 过小:参数更新缓慢,训练效率低,需迭代极多次数才能逼近最优解。
- 批量大小
- 过小:无法充分利用硬件计算资源(如 GPU 并行计算能力),训练效率低。
- 过大:浪费计算资源(批量内样本冗余),且可能陷入局部最优,无法适应数据分布变化。
(四)损失函数
用于衡量模型预测值与真实值的差异,常见类型如下:
损失函数类型 | 核心特点 | 适用场景 |
---|---|---|
平方损失(L2 损失) | 计算预测值与真实值差值的平方,对异常值敏感(异常值会导致损失大幅增大) | 线性回归(连续值预测) |
L1 损失 | 计算预测值与真实值差值的绝对值,对异常值鲁棒性更强 | 需避免异常值干扰的回归任务 |
Huber 损失 | 结合 L1 和 L2 损失特性:误差较小时用 L2 损失(平滑),误差较大时用 L1 损失(抗异常值) | 对异常值敏感程度需平衡的回归任务 |
交叉熵损失 | 公式为H(p,q)=−∑pilog(qi),用于比较两个概率分布p(真实分布)和q(预测分布)的差异,损失越小表示两分布越接近 | 分类任务(尤其是 Softmax 回归) |
三、Softmax 回归(多类分类模型)
(一)回归与分类的核心区别
任务类型 | 输出形式 | 目标 | 典型案例 |
---|---|---|---|
回归 | 单个连续值 | 估计真实连续值(如房价、温度) | 房价预测、股票价格预测 |
分类 | 多个离散类别 | 预测样本所属类别,输出各类别置信度 | ImageNet(1000 类自然对象分类)、MNIST(10 类手写数字分类)、Kaggle 恶语评论分类(7 类) |
(二)模型结构
- 网络特性:属于单层全连接神经网络,输入层接收样本特征(如图像像素、文本特征),输出层神经元数量等于分类任务的类别数(如 MNIST 任务输出层设 10 个神经元)。
- 全连接特点:输出层每个神经元(如o1,o2,o3)的计算均依赖所有输入特征(如x1,x2,x3,x4),通过权重连接所有输入。
(三)Softmax 运算(概率转换)
- 核心作用:将输出层的原始预测值(o1,o2,...,ok)转换为概率分布(满足非负、所有类别概率和为 1),便于解释各类别预测置信度。
- 数学公式:对每个类别i,概率yi=∑kexp(ok)exp(oi)。
- 分子exp(oi):确保输出值非负。
- 分母∑kexp(ok):对所有类别原始输出的指数值求和,确保最终概率和为 1。
- 示例:原始输出[1,−1,2]经过 Softmax 运算后,得到概率分布[0.26,0.04,0.7],其中类别 3 的置信度最高(0.7)。
(四)损失函数:交叉熵损失
由于 Softmax 回归输出为概率分布,需用交叉熵损失衡量 “预测概率分布” 与 “真实标签分布” 的差异(如真实标签为类别 2 时,真实分布为[0,1,0]),确保模型训练方向是让预测分布逼近真实分布。
四、核心总结
- 模型定位:线性回归是连续值预测的基础模型(单层神经网络),Softmax 回归是多类分类的基础模型(单层全连接神经网络)。
- 优化核心:梯度下降(尤其是小批量随机梯度下降)是模型训练的核心算法,需合理选择学习率和批量大小两个关键超参数。
- 损失函数匹配:回归任务常用平方损失 / L1 损失,分类任务(Softmax 回归)必用交叉熵损失。
- Softmax 关键作用:通过指数运算和归一化,将原始输出转换为概率分布,解决多类分类的置信度解释问题。