当前位置: 首页 > news >正文

线性回归与 Softmax 回归核心知识点总结

一、线性回归

(一)核心应用场景

以 “房价预测” 为典型案例,通过分析房屋相关特征(如卧室数量、车库面积、所属学区等)和往年房价数据(如 A、B 等买家的历史成交价),构建模型来估计房屋价格,为出价决策提供依据。

(二)数学表达式

  1. 单样本形式:y=wTx+b,其中x为输入特征向量,w为权重向量,b为偏置,y为预测的连续输出值(如房价)。
  2. 多样本矩阵形式:y=Xw+b,X为样本特征矩阵(每行代表一个样本,每列代表一个特征),可同时对多个样本进行预测。

(三)与神经网络的关联

线性回归可视为单层神经网络,结构包含输入层和输出层:

  • 输入层:接收样本特征(如房屋的卧室数、车库信息等)。
  • 输出层:通过线性计算y=wTx+b得到连续预测值,无隐藏层,权重w直接连接输入与输出。

二、模型训练核心技术(优化算法与损失函数)

(一)基础优化算法:梯度法

  1. 核心原理
    • 梯度:由函数所有变量的偏导数汇总而成的向量,例如函数f(x0​,x1​)=x02​+x12​的梯度为各变量偏导数构成的向量。
    • 梯度方向特性:梯度指示的反方向是函数值减小最快的方向,但无法保证指向全局最小值,仅能确保沿该方向前进时函数值最大限度降低。
  2. 迭代流程:从当前参数位置出发,沿梯度反方向前进一定距离(步长由学习率控制)→ 在新位置重新计算梯度 → 重复上述步骤,逐步逼近损失函数最小值。

(二)常见梯度下降变种

算法类型核心特点优缺点
随机梯度下降(SGD)每次仅使用单个样本计算梯度并更新参数,通过不断沿损失递减方向更新参数降低误差优点:训练速度快,能快速摆脱局部最优;缺点:参数更新波动大,收敛过程不稳定
小批量随机梯度下降(Mini-batch SGD)每次使用一小批样本(如 32、64 个)计算梯度优点:平衡训练速度与稳定性,是深度学习默认求解算法;缺点:需手动选择批量大小

(三)关键超参数选择

  1. 学习率
    • 过大:参数更新幅度过大,可能跳过损失函数最小值,导致模型不收敛。
    • 过小:参数更新缓慢,训练效率低,需迭代极多次数才能逼近最优解。
  2. 批量大小
    • 过小:无法充分利用硬件计算资源(如 GPU 并行计算能力),训练效率低。
    • 过大:浪费计算资源(批量内样本冗余),且可能陷入局部最优,无法适应数据分布变化。

(四)损失函数

用于衡量模型预测值与真实值的差异,常见类型如下:

损失函数类型核心特点适用场景
平方损失(L2 损失)计算预测值与真实值差值的平方,对异常值敏感(异常值会导致损失大幅增大)线性回归(连续值预测)
L1 损失计算预测值与真实值差值的绝对值,对异常值鲁棒性更强需避免异常值干扰的回归任务
Huber 损失结合 L1 和 L2 损失特性:误差较小时用 L2 损失(平滑),误差较大时用 L1 损失(抗异常值)对异常值敏感程度需平衡的回归任务
交叉熵损失公式为H(p,q)=−∑pi​log(qi​),用于比较两个概率分布p(真实分布)和q(预测分布)的差异,损失越小表示两分布越接近分类任务(尤其是 Softmax 回归)

三、Softmax 回归(多类分类模型)

(一)回归与分类的核心区别

任务类型输出形式目标典型案例
回归单个连续值估计真实连续值(如房价、温度)房价预测、股票价格预测
分类多个离散类别预测样本所属类别,输出各类别置信度ImageNet(1000 类自然对象分类)、MNIST(10 类手写数字分类)、Kaggle 恶语评论分类(7 类)

(二)模型结构

  1. 网络特性:属于单层全连接神经网络,输入层接收样本特征(如图像像素、文本特征),输出层神经元数量等于分类任务的类别数(如 MNIST 任务输出层设 10 个神经元)。
  2. 全连接特点:输出层每个神经元(如o1​,o2​,o3​)的计算均依赖所有输入特征(如x1​,x2​,x3​,x4​),通过权重连接所有输入。

(三)Softmax 运算(概率转换)

  1. 核心作用:将输出层的原始预测值(o1​,o2​,...,ok​)转换为概率分布(满足非负、所有类别概率和为 1),便于解释各类别预测置信度。
  2. 数学公式:对每个类别i,概率yi​=∑k​exp(ok​)exp(oi​)​。
    • 分子exp(oi​):确保输出值非负。
    • 分母∑k​exp(ok​):对所有类别原始输出的指数值求和,确保最终概率和为 1。
  3. 示例:原始输出[1,−1,2]经过 Softmax 运算后,得到概率分布[0.26,0.04,0.7],其中类别 3 的置信度最高(0.7)。

(四)损失函数:交叉熵损失

由于 Softmax 回归输出为概率分布,需用交叉熵损失衡量 “预测概率分布” 与 “真实标签分布” 的差异(如真实标签为类别 2 时,真实分布为[0,1,0]),确保模型训练方向是让预测分布逼近真实分布。

四、核心总结

  1. 模型定位:线性回归是连续值预测的基础模型(单层神经网络),Softmax 回归是多类分类的基础模型(单层全连接神经网络)。
  2. 优化核心:梯度下降(尤其是小批量随机梯度下降)是模型训练的核心算法,需合理选择学习率和批量大小两个关键超参数。
  3. 损失函数匹配:回归任务常用平方损失 / L1 损失,分类任务(Softmax 回归)必用交叉熵损失。
  4. Softmax 关键作用:通过指数运算和归一化,将原始输出转换为概率分布,解决多类分类的置信度解释问题。

文章转载自:

http://LLd8NV2h.sbrxm.cn
http://jN9WzIay.sbrxm.cn
http://YTpQmCpo.sbrxm.cn
http://qX4HE4kC.sbrxm.cn
http://CW43d9Lg.sbrxm.cn
http://1g0hRfwe.sbrxm.cn
http://7CkLEb2r.sbrxm.cn
http://YLJ5dEVg.sbrxm.cn
http://JRSaNEUa.sbrxm.cn
http://CijRfP32.sbrxm.cn
http://Tqi8BItU.sbrxm.cn
http://Lxx5oxX4.sbrxm.cn
http://6XkOfQV4.sbrxm.cn
http://cFdcNRUg.sbrxm.cn
http://ioXW1WB4.sbrxm.cn
http://RdrXMrZo.sbrxm.cn
http://YPOTMvYG.sbrxm.cn
http://rwT53e80.sbrxm.cn
http://Y2AIXmlf.sbrxm.cn
http://5OJ3ajU3.sbrxm.cn
http://UV4S4ATF.sbrxm.cn
http://OM2LBUPz.sbrxm.cn
http://5ZTUKLM4.sbrxm.cn
http://M3OPte29.sbrxm.cn
http://uVXvB09D.sbrxm.cn
http://Y5yp3xub.sbrxm.cn
http://ip2Yp64V.sbrxm.cn
http://APZMf0J6.sbrxm.cn
http://LpZ6uqzb.sbrxm.cn
http://6xDK8jFr.sbrxm.cn
http://www.dtcms.com/a/387863.html

相关文章:

  • OpenLayers数据源集成 -- 章节十八:GML图层详解:OGC标准地理标记语言的完整集成与智能样式渲染方案
  • 线性回归与 Softmax 回归核心内容总结
  • 【数据分享】各省农业新质生产力数据(2012-2023)
  • 整理SpringBoot实现文件上传所需的知识
  • Cesium 加载ArcGIS 地图源到国内地图源的切换
  • 2010/12 JLPT听力原文 问题四
  • html页面转PDF
  • day3 MySOL多表操作
  • 触觉智能RK3576开发板OpenHarmony开源鸿蒙系统USB控制传输功能示例
  • 阿里云开源通义 DeepResearch!轻量级 AI 代理性能对标 OpenAI,系统性技术创新赋能研究能力​
  • WSL Git Clone 项目识别 `.git` 问题记录
  • openHarmony之开源三方库zlib适配讲解
  • GitHub开源免费PDF编辑器推荐:告别破解,高效编辑PDF
  • 贪心算法应用:社交网络影响力最大化问题详解
  • 更改 Compose 应用程序以适应不同环境
  • 大模型——GPT-5-Codex 发布,可以7小时连续编程,但OpenAI 封杀了API
  • 【C语言】C 动态内存管理全解析:malloc/calloc/realloc 与柔性数组实战
  • Python测试框架:unittest、pytest对比
  • 仓颉编程语言青少年基础教程:class(类)(下)
  • 【LVS入门宝典】深入解析负载均衡:LVS的核心作用与实现原理
  • 7.4缓存
  • vscode单击暂时预览文件 双击持续打开文件
  • 机器视觉 真实项目案例征集
  • 一根网线搞定远程运维,GL-RM1PE 深度体验:远程运维、装机、开机一体化的 KVM over IP
  • Ubuntu20.04仿真 | 云台相机可直接使用文件
  • Docker学习记录——构建本地镜像,从Windows向Ubuntu推送
  • MyBatis分页:PageHelper
  • 基于python BERT的新闻文本分类与用户行为预测的分析与应用
  • MFC实战:OBJ模型加载与3D渲染指南
  • FAQ:珠海网络推广哪家好?GEO优化能带来哪些优势?