当前位置：首页 > news >正文

线性回归与 Softmax 回归核心知识点总结

news 2025/9/18 7:36:32

一、线性回归

（一）核心应用场景

以 “房价预测” 为典型案例，通过分析房屋相关特征（如卧室数量、车库面积、所属学区等）和往年房价数据（如 A、B 等买家的历史成交价），构建模型来估计房屋价格，为出价决策提供依据。

（二）数学表达式

单样本形式：y=wTx+b，其中x为输入特征向量，w为权重向量，b为偏置，y为预测的连续输出值（如房价）。
多样本矩阵形式：y=Xw+b，X为样本特征矩阵（每行代表一个样本，每列代表一个特征），可同时对多个样本进行预测。

（三）与神经网络的关联

线性回归可视为单层神经网络，结构包含输入层和输出层：

输入层：接收样本特征（如房屋的卧室数、车库信息等）。
输出层：通过线性计算y=wTx+b得到连续预测值，无隐藏层，权重w直接连接输入与输出。

二、模型训练核心技术（优化算法与损失函数）

（一）基础优化算法：梯度法

核心原理
- 梯度：由函数所有变量的偏导数汇总而成的向量，例如函数f(x0,x1)=x02+x12的梯度为各变量偏导数构成的向量。
- 梯度方向特性：梯度指示的反方向是函数值减小最快的方向，但无法保证指向全局最小值，仅能确保沿该方向前进时函数值最大限度降低。
迭代流程：从当前参数位置出发，沿梯度反方向前进一定距离（步长由学习率控制）→ 在新位置重新计算梯度 → 重复上述步骤，逐步逼近损失函数最小值。

（二）常见梯度下降变种

算法类型	核心特点	优缺点
随机梯度下降（SGD）	每次仅使用单个样本计算梯度并更新参数，通过不断沿损失递减方向更新参数降低误差	优点：训练速度快，能快速摆脱局部最优；缺点：参数更新波动大，收敛过程不稳定
小批量随机梯度下降（Mini-batch SGD）	每次使用一小批样本（如 32、64 个）计算梯度	优点：平衡训练速度与稳定性，是深度学习默认求解算法；缺点：需手动选择批量大小

（三）关键超参数选择

学习率
- 过大：参数更新幅度过大，可能跳过损失函数最小值，导致模型不收敛。
- 过小：参数更新缓慢，训练效率低，需迭代极多次数才能逼近最优解。
批量大小
- 过小：无法充分利用硬件计算资源（如 GPU 并行计算能力），训练效率低。
- 过大：浪费计算资源（批量内样本冗余），且可能陷入局部最优，无法适应数据分布变化。

（四）损失函数

用于衡量模型预测值与真实值的差异，常见类型如下：

损失函数类型	核心特点	适用场景
平方损失（L2 损失）	计算预测值与真实值差值的平方，对异常值敏感（异常值会导致损失大幅增大）	线性回归（连续值预测）
L1 损失	计算预测值与真实值差值的绝对值，对异常值鲁棒性更强	需避免异常值干扰的回归任务
Huber 损失	结合 L1 和 L2 损失特性：误差较小时用 L2 损失（平滑），误差较大时用 L1 损失（抗异常值）	对异常值敏感程度需平衡的回归任务
交叉熵损失	公式为H(p,q)=−∑pilog(qi)，用于比较两个概率分布p（真实分布）和q（预测分布）的差异，损失越小表示两分布越接近	分类任务（尤其是 Softmax 回归）

三、Softmax 回归（多类分类模型）

（一）回归与分类的核心区别

任务类型	输出形式	目标	典型案例
回归	单个连续值	估计真实连续值（如房价、温度）	房价预测、股票价格预测
分类	多个离散类别	预测样本所属类别，输出各类别置信度	ImageNet（1000 类自然对象分类）、MNIST（10 类手写数字分类）、Kaggle 恶语评论分类（7 类）

（二）模型结构

网络特性：属于单层全连接神经网络，输入层接收样本特征（如图像像素、文本特征），输出层神经元数量等于分类任务的类别数（如 MNIST 任务输出层设 10 个神经元）。
全连接特点：输出层每个神经元（如o1,o2,o3）的计算均依赖所有输入特征（如x1,x2,x3,x4），通过权重连接所有输入。

（三）Softmax 运算（概率转换）

核心作用：将输出层的原始预测值（o1,o2,...,ok）转换为概率分布（满足非负、所有类别概率和为 1），便于解释各类别预测置信度。
数学公式：对每个类别i，概率yi=∑kexp(ok)exp(oi)。
- 分子exp(oi)：确保输出值非负。
- 分母∑kexp(ok)：对所有类别原始输出的指数值求和，确保最终概率和为 1。
示例：原始输出[1,−1,2]经过 Softmax 运算后，得到概率分布[0.26,0.04,0.7]，其中类别 3 的置信度最高（0.7）。

（四）损失函数：交叉熵损失

由于 Softmax 回归输出为概率分布，需用交叉熵损失衡量 “预测概率分布” 与 “真实标签分布” 的差异（如真实标签为类别 2 时，真实分布为[0,1,0]），确保模型训练方向是让预测分布逼近真实分布。

四、核心总结

模型定位：线性回归是连续值预测的基础模型（单层神经网络），Softmax 回归是多类分类的基础模型（单层全连接神经网络）。
优化核心：梯度下降（尤其是小批量随机梯度下降）是模型训练的核心算法，需合理选择学习率和批量大小两个关键超参数。
损失函数匹配：回归任务常用平方损失 / L1 损失，分类任务（Softmax 回归）必用交叉熵损失。
Softmax 关键作用：通过指数运算和归一化，将原始输出转换为概率分布，解决多类分类的置信度解释问题。

文章转载自：

http://LLd8NV2h.sbrxm.cn
http://jN9WzIay.sbrxm.cn
http://YTpQmCpo.sbrxm.cn
http://qX4HE4kC.sbrxm.cn
http://CW43d9Lg.sbrxm.cn
http://1g0hRfwe.sbrxm.cn
http://7CkLEb2r.sbrxm.cn
http://YLJ5dEVg.sbrxm.cn
http://JRSaNEUa.sbrxm.cn
http://CijRfP32.sbrxm.cn
http://Tqi8BItU.sbrxm.cn
http://Lxx5oxX4.sbrxm.cn
http://6XkOfQV4.sbrxm.cn
http://cFdcNRUg.sbrxm.cn
http://ioXW1WB4.sbrxm.cn
http://RdrXMrZo.sbrxm.cn
http://YPOTMvYG.sbrxm.cn
http://rwT53e80.sbrxm.cn
http://Y2AIXmlf.sbrxm.cn
http://5OJ3ajU3.sbrxm.cn
http://UV4S4ATF.sbrxm.cn
http://OM2LBUPz.sbrxm.cn
http://5ZTUKLM4.sbrxm.cn
http://M3OPte29.sbrxm.cn
http://uVXvB09D.sbrxm.cn
http://Y5yp3xub.sbrxm.cn
http://ip2Yp64V.sbrxm.cn
http://APZMf0J6.sbrxm.cn
http://LpZ6uqzb.sbrxm.cn
http://6xDK8jFr.sbrxm.cn

http://www.dtcms.com/a/387863.html

相关文章：

OpenLayers数据源集成 -- 章节十八：GML图层详解：OGC标准地理标记语言的完整集成与智能样式渲染方案

线性回归与 Softmax 回归核心内容总结

【数据分享】各省农业新质生产力数据（2012-2023）

整理SpringBoot实现文件上传所需的知识

Cesium 加载ArcGIS 地图源到国内地图源的切换

2010/12 JLPT听力原文问题四

html页面转PDF

day3 MySOL多表操作

触觉智能RK3576开发板OpenHarmony开源鸿蒙系统USB控制传输功能示例

阿里云开源通义 DeepResearch！轻量级 AI 代理性能对标 OpenAI，系统性技术创新赋能研究能力

WSL Git Clone 项目识别 `.git` 问题记录

openHarmony之开源三方库zlib适配讲解

GitHub开源免费PDF编辑器推荐：告别破解，高效编辑PDF

贪心算法应用：社交网络影响力最大化问题详解

更改 Compose 应用程序以适应不同环境

大模型——GPT-5-Codex 发布，可以7小时连续编程，但OpenAI 封杀了API

【C语言】C 动态内存管理全解析：malloc/calloc/realloc 与柔性数组实战

Python测试框架：unittest、pytest对比

仓颉编程语言青少年基础教程：class（类）（下）

【LVS入门宝典】深入解析负载均衡：LVS的核心作用与实现原理

7.4缓存

vscode单击暂时预览文件双击持续打开文件

机器视觉真实项目案例征集

一根网线搞定远程运维，GL-RM1PE 深度体验：远程运维、装机、开机一体化的 KVM over IP

Ubuntu20.04仿真 | 云台相机可直接使用文件

Docker学习记录——构建本地镜像，从Windows向Ubuntu推送

MyBatis分页：PageHelper

基于python BERT的新闻文本分类与用户行为预测的分析与应用

MFC实战：OBJ模型加载与3D渲染指南

FAQ：珠海网络推广哪家好？GEO优化能带来哪些优势？