当前位置: 首页 > news >正文

残差:从统计学到深度学习的核心概念

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

1 什么是残差?

残差(Residual)是统计学和机器学习中的重要概念,指观测值与模型预测值之间的差异。其基本计算公式为:

ei=yi−y^ie_i = y_i - \hat{y}_i ei=yiy^i

其中:

  • yiy_iyi 是实际观测值 📊
  • y^i\hat{y}_iy^i 是模型预测值 🔮

举个简单例子:在房价预测模型中,如果某房屋实际售价为100万元,模型预测为95万元,则残差为+5万元(表示模型低估了实际价格)。

残差反映了模型预测的误差大小和方向,是评估模型性能、诊断模型问题的重要指标。正残差表示模型低估了实际值,负残差则表示模型高估了实际值。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

往期文章推荐:

  • 20.大语言模型强化学习中的熵崩溃现象:机制、影响与解决方案
  • 19.线性预热机制(Linear Warmup):深度学习训练稳定性的关键策略
  • 18.蚁群算法详解:从蚂蚁觅食到优化利器
  • 17.粒子群优化(PSO)算法详解:从鸟群行为到强大优化工具
  • 16.NSGA-II多目标优化算法:原理、应用与实现
  • 15.SPEA2多目标进化算法:理论与应用全解析
  • 14.NSGA系列多目标优化算法:从理论到实践
  • 13.Adam优化算法:深度学习的自适应动量估计方法
  • 12.VeRL:强化学习与大模型训练的高效融合框架
  • 11.BBEH:大模型高阶推理能力的“超难”试金石
  • 10.MGSM:大模型多语言数学推理的“试金石”
  • 9.灾难性遗忘:神经网络持续学习的核心挑战与解决方案
  • 8.内存墙:计算性能的隐形枷锁与突破之路
  • 7.阿喀琉斯之踵:从神话传说到现代隐喻的致命弱点
  • 6.DS-1000:数据科学代码生成的可靠基准测试
  • 5.MultiPL-E: 多语言代码生成的革命性基准测试框架
  • 4.梯度爆炸问题:深度学习中的「链式核弹」与拆弹指南
  • 3.IBM穿孔卡片:现代计算技术的奠基之作
  • 2.EDVAC:现代计算机体系的奠基之作
  • 1.机电装置:从基础原理到前沿应用的全方位解析

2 残差的核心作用

2.1 模型诊断 🤖

通过分析残差分布(如绘制残差图),可以检验模型假设是否成立(如线性、方差齐性)。如果残差呈现规律性分布(如曲线模式),可能意味着需要引入非线性项或改变模型形式。

2.2 异常值检测 🎯

标准化残差(残差除以其标准差)或学生化残差(考虑数据点对模型的影响)可以帮助识别异常值。异常值可能对模型产生不成比例的影响,识别并处理这些值是提高模型准确性的关键。

2.3 模型优化 ⚙️

残差分析能够为模型改进提供方向,例如发现残差在某些特定区间内呈现非随机性时,可能需要引入新的变量或考虑交互作用。

3 残差的相关概念

3.1 残差平方和(RSS)

残差平方和(Residual Sum of Squares, RSS)是所有残差的平方和,用于评估模型整体拟合效果,公式为:

RSS=∑i=1nei2\text{RSS} = \sum_{i=1}^n e_i^2 RSS=i=1nei2

最小二乘法就是通过最小化RSS来求解模型参数的。

3.2 随机误差 vs. 残差

需要注意的是,随机误差残差是两个相关但不同的概念:

  • 随机误差:是模型中将未知因素对因变量的影响,是理论上的概念,不可直接观测。
  • 残差:是实际观测值与模型预测值的差额,可以根据样本数据计算得出。

实践中,人们常用残差来估计随机误差项。

以下是残差与随机误差的对比表:

特征随机误差残差
定义总体模型中的不可观测误差样本中观测值与预测值的差异
性质理论概念,不可直接测量实际计算值,可直接测量
作用反映未知因素对因变量的影响评估模型拟合质量,诊断模型问题
可观测性不可直接观测可直接计算
与模型关系存在于总体回归模型中存在于样本回归模型中

3.3 正态性假设

经典线性回归假设残差服从正态分布,以保证统计推断(如t检验、置信区间)的有效性。实践中可以通过Q-Q图或统计检验(如Shapiro-Wilk检验)来验证这一假设。

4 残差在深度学习中的应用:ResNet革命

4.1 ResNet的诞生

虽然残差的概念早已存在于统计学中,但它在深度学习领域的革命性应用体现在残差网络(Residual Network, ResNet)中。ResNet由Kaiming He等人于2015年提出,其核心论文《Deep Residual Learning for Image Recognition》已成为计算机视觉领域的里程碑之作。

原始论文出处
He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 770-778. https://arxiv.org/abs/1512.03385

4.2 深度网络中的退化问题

随着神经网络深度的增加,理论上模型应该能够学习更复杂的特征并表示更复杂的功能,但实际情况却是:更深的网络往往表现出更高的训练误差和测试误差。这种问题不是由过拟合引起的(因为训练误差也很高),而是由于优化困难导致的。

4.3 残差学习框架

ResNet通过引入残差学习框架(residual learning framework)来解决深度网络的退化问题。其核心思想是:不期望堆叠的层直接拟合所需的底层映射,而是让这些层拟合残差映射

残差模块定义为:

y=F(x,{Wi})+xy = \mathcal{F}(x, \{W_i\}) + x y=F(x,{Wi})+x

其中:

  • xxxyyy 是输入和输出向量
  • F(x,{Wi})\mathcal{F}(x, \{W_i\})F(x,{Wi}) 表示需要学习的残差映射
  • +x+x+x 部分通过快捷连接(shortcut connection)实现

4.4 为什么残差连接有效?

残差连接的有效性可以从多个角度解释:

  1. 解决梯度消失问题:快捷连接提供了梯度传播的"高速公路",使得梯度能够直接反向传播到较早的层,缓解了梯度消失问题 📈
  2. 恒等映射:残差块更容易学习恒等映射(即输出等于输入),这意味着增加残差块至少不会降低网络性能 🎯
  3. 集成学习视角:有研究表明,ResNet可以理解为许多不同深度路径的集成,从而提高了模型的泛化能力 🤖

5 残差分析的方法

残差分析是评估模型拟合情况和数据特性的重要手段,以下是几种常见的方法:

5.1 残差图

残差图是最常用的残差分析工具之一,通过将残差值与预测值绘制在坐标系中,可以直观地观察残差的分布情况。如果残差图呈现随机分布,说明模型拟合良好;如果存在明显的模式,则提示模型可能存在问题。

5.2 正态性检验

通过对残差进行正态性检验(如Shapiro-Wilk检验、Kolmogorov-Smirnov检验等),可以评估残差是否符合正态分布的假设。如果正态性检验未通过,可能需要对模型进行调整或对数据进行变换。

5.3 同方差性检验

同方差性指的是残差的方差在自变量的不同取值下应保持一致。可以使用Breusch-Pagan检验或White检验等方法来检验同方差性。如果发现异方差性,可能需要对模型进行变换或采用加权回归等方法。

5.4 影响力分析

通过计算Cook距离杠杆值等指标,可以识别对模型拟合有显著影响的观测值。这些指标有助于识别和分析数据中的异常值。

6 残差在不同领域的应用

残差概念广泛应用于各个领域,包括但不限于:

6.1 回归分析

在回归分析中,残差分析用于检验模型是否遗漏关键变量或存在异方差性。通过分析残差模式,可以指导模型改进和优化。

6.2 时间序列分析

在ARIMA等时间序列模型中,残差需满足白噪声(无自相关)条件以确认模型充分性。如果残差存在自相关,说明模型未能充分捕捉数据中的时间依赖结构。

6.3 机器学习

在机器学习中,残差用于特征选择、模型优化和集成学习。例如,梯度提升算法(Gradient Boosting)就是通过迭代地拟合前一轮的残差来逐步改进模型性能。

7 残差的局限与注意事项

尽管残差是强大的诊断工具,但在使用过程中需要注意以下几点:

  1. 上下文相关性:残差的解释高度依赖于具体上下文和应用领域,需要结合领域知识进行解读。
  2. 多重比较问题:当进行多次残差分析时,可能会遇到多重比较问题,导致错误发现率增加。
  3. 模型依赖性:残差的解释和意义取决于所使用的模型,不同模型产生的残差可能具有不同的性质和解释。
  4. 异常值影响:极端异常值可能对残差分析产生不成比例的影响,需要谨慎处理。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!


文章转载自:

http://SMFx0eWP.zphLb.cn
http://8mYh6Snb.zphLb.cn
http://CpAGAQJV.zphLb.cn
http://ehFdTCmA.zphLb.cn
http://ZWQqgfcs.zphLb.cn
http://JVX6hyaA.zphLb.cn
http://Wy6Qsem9.zphLb.cn
http://zBWnFznk.zphLb.cn
http://rGcdUiLo.zphLb.cn
http://SQhTQsXh.zphLb.cn
http://AJjVUO6R.zphLb.cn
http://sXOqhDk8.zphLb.cn
http://V1JokM5E.zphLb.cn
http://jgse2Vc7.zphLb.cn
http://4SVGTHMf.zphLb.cn
http://WjYsASuA.zphLb.cn
http://OWofUcZb.zphLb.cn
http://bjCXjTFl.zphLb.cn
http://CBCNXos3.zphLb.cn
http://zfhBduv4.zphLb.cn
http://SGp7IILw.zphLb.cn
http://UdRhp3cR.zphLb.cn
http://iRfKWDFq.zphLb.cn
http://ranR90aY.zphLb.cn
http://BVDowKJQ.zphLb.cn
http://J7nRG11r.zphLb.cn
http://pDSLFUMh.zphLb.cn
http://nl1OMyAK.zphLb.cn
http://HsPqziBz.zphLb.cn
http://cBUuNQR0.zphLb.cn
http://www.dtcms.com/a/382071.html

相关文章:

  • 华为体检转氨酶高能否入职
  • DeerFlow 实践:华为IPD流程的评审智能体设计
  • AI赋能金融研报自动化生成:智能体系统架构与实现
  • 一、Java 基础入门:从 0 到 1 认识 Java(详细笔记)
  • python123机器学习基础练习1
  • 微信小程序坐标位置使用整理(四)map组件
  • 贪心算法在联邦学习客户端选择问题中的应用
  • 自增主键为何需要返回?
  • JDBC从入门到面试:全面掌握Java数据库连接技术
  • java本机电脑跳过2层网络连到客户内网远程调试方案
  • 基于多元线性回归、随机森林与神经网络的农作物元素含量预测及SHAP贡献量分析
  • MySQL数据库 -- 6.事务
  • CSS :has() 选择器详解:为什么它是“父选择器”?如何实现真正的容器查询?
  • 6-1ASPNETCoreWeb入门
  • 【文献笔记】PointWeb
  • Rupert Baines加入CSA Catapult董事会
  • 解密进程管理:从创建到回收全解析(基于Liunx操作系统)
  • 深度神经网络2——优化器选择、学习率消毒、正则化选择
  • 核心利润获现率
  • Nginx 502 网关错误:upstream 超时配置的踩坑与优化
  • (综述)视觉任务的视觉语言模型
  • 【C语言选择排序算法详解】+ 算法性能优化 + 动态演示实现
  • 基于Matlab硬币圆形检测的实现
  • go使用反射获取http.Request参数到结构体
  • vscode使用tmux技巧
  • 【Block总结】ConverseNet:神经网络中的反向卷积算子
  • C++学习记录(8)list
  • 【C++】STL·List
  • 网络安全与iptables防火墙配置
  • Django + Vue3 前后端分离技术实现自动化测试平台从零到有系列 <第一章> 之 注册登录实现