当前位置: 首页 > news >正文

深度学习(十四):正则化与L2正则化

什么是正则化?

在深度学习中,正则化是一系列旨在减少模型泛化误差而非训练误差的技术。其核心目的是防止模型在训练数据上过拟合(Overfitting),从而提高模型在未见过的新数据上的表现能力。过拟合通常表现为模型在训练集上表现极佳,但在验证集或测试集上表现较差。

模型过拟合的原因往往是其复杂度过高,拥有过多的自由度,能够“记住”训练集中的噪声和随机波动,而不是学习到数据背后的普遍规律。正则化通过约束模型的复杂度来对抗这种现象。

正则化的目标与作用

  1. 防止过拟合: 这是正则化最主要的目的。通过限制模型参数的可能取值范围或值的幅度,减少模型对训练数据细节的依赖。
  2. 提高泛化能力: 使模型学习到的特征更具有普遍性,从而在未知数据上也能保持较高的准确性。
  3. 简化模型: 促使模型选择更简单的解释,这符合奥卡姆剃刀原则(Occam’s Razor):在同样能解释数据的情况下,选择最简单的模型。

L2正则化:原理、推导与特性

L2正则化(L2 Regularization),又称岭回归(Ridge Regression),是深度学习中最常用且最有效的正则化方法之一。

L2正则化的数学原理

L2正则化通过在模型的损失函数(Loss Function)**中添加一个与**模型权重的平方和成正比的项来实现。

原始的损失函数(例如:交叉熵损失 J0):

在这里插入图片描述

加入L2正则化项后的总损失函数 J(W,b):

在这里插入图片描述

其中:

  • J0 是模型的原始损失函数(如均方误差、交叉熵)。
  • W={wj} 是模型中的所有权重参数(通常不对偏置项 b 进行正则化)。
  • wj 是模型中的第 j 个权重。
  • λ(Lambda)是正则化系数(或正则化率),它是一个超参数,用于控制正则化项对总损失的贡献程度。λ 越大,对权重的惩罚越大。
  • ∑jwj2 即为权重向量的 L2 范数(Euclidean norm)的平方,记作 ∣∣W∣∣22。

L2正则化如何防止过拟合?

L2正则化的作用在于惩罚较大的权重值。为了最小化总损失 J,模型在优化过程中不仅要最小化原始损失 J0,还要设法使权重 W 接近于零。

  1. 平滑模型: L2正则化倾向于使模型中所有的权重都比较小且接近于零,但不会使它们精确地变为零。较小的权重意味着输入数据的微小变化只会导致输出的较小变化,使模型对输入的扰动不那么敏感,从而更平滑、更简单。
  2. 梯度更新与权重衰减(Weight Decay): 在进行梯度下降时,权重的更新公式会受到正则化项的影响。以最简单的线性模型为例,对 L2 正则化项求导得:

在这里插入图片描述

​ 因此,更新规则变为:

在这里插入图片描述

​ 其中 α 是学习率。上式可重写为:

在这里插入图片描述

可以看到,每进行一次梯度更新,权重 wjold 都会先乘上一个小于 1 的因子 (1−αλ) 进行衰减,然后再减去原始损失的梯度。这就是 L2 正则化也被称为权重衰减的原因。

L1正则化与L2正则化的比较

L2正则化是**“正则化”**这一大类技术中的一种。与L2正则化并列的另一个重要方法是 L1正则化(L1 Regularization),又称 Lasso 回归

特征L2 正则化(Ridge/权重衰减)L1 正则化(Lasso)
正则化项权重的平方和($
损失函数$J_0 + \frac{\lambda}{2}
对权重的影响使所有权重都趋向于零,但不会精确为零。使许多权重精确地变为
稀疏性不具备稀疏性。所有特征都保留,但系数很小。具备稀疏性。可以用于特征选择(Feature Selection)。
可微性完全可微,优化计算效率高。在零点不可微,优化过程略复杂。
几何解释损失函数等高线与 L2 约束区域(圆/球体)的交点。损失函数等高线与 L1 约束区域(菱形/立方体)的交点。

**稀疏性(Sparsity)**是L1正则化与L2正则化最核心的区别。L1正则化会把不重要的特征对应的权重直接置为零,因此可以实现自动的特征选择;而L2正则化则保留所有特征,但使它们的权重都很小。在特征数量非常庞大且需要筛选时,L1正则化可能更合适。在大多数深度学习场景中,L2正则化因其平滑且计算友好的特性而更为常用。

L2正则化的应用优势

  1. 计算高效: L2正则化项是可微的,这使其能顺利集成到基于梯度下降的优化算法中,计算简单且高效。
  2. 模型稳定: 通过缩小权重,L2正则化能增强模型的抗扰动能力,使模型的预测结果对输入数据的微小变化更稳定。
  3. 贝叶斯解释: 从贝叶斯统计的角度看,L2正则化等价于假设模型参数 wj 服从零均值的高斯先验分布(Normal/Gaussian Prior)。这种先验信息鼓励参数取接近于零的值。
  4. 易于调参: 只需要调整一个超参数 λ。通常通过在验证集上进行网格搜索或随机搜索来找到最优的 λ 值。

总结

正则化是确保深度学习模型从“记住”训练数据到“理解”普遍规律的关键桥梁。L2正则化作为其中最基础和重要的方法之一,通过惩罚权重的大小,有效地降低了模型的复杂度,提高了模型的泛化能力。它通过在每次参数更新时引入权重衰减,促使模型选择更小的权重值,从而获得更平滑、更稳定的决策边界。

在实践中,除了L2/L1正则化外,深度学习中还有其他重要的正则化技术,例如:

  • Dropout: 在训练过程中随机地“关闭”一部分神经元,防止神经元之间的共适应。
  • 数据增强(Data Augmentation): 通过对训练数据进行随机变换(如旋转、裁剪、翻转),增加训练样本的多样性。
    经元,防止神经元之间的共适应。
  • 数据增强(Data Augmentation): 通过对训练数据进行随机变换(如旋转、裁剪、翻转),增加训练样本的多样性。
  • 早停法(Early Stopping): 在模型在验证集上的性能开始恶化时就停止训练。
http://www.dtcms.com/a/445534.html

相关文章:

  • 深入浅出 ArkTS:构建响应式 HarmonyOS 应用的现代语法与实践
  • react生态
  • 深度学习周报(9.29~10.5)
  • 【开题答辩全过程】以 ssm框架的智能校园服务系统为例,包含答辩的问题和答案
  • [论文阅读] (42)ASC25 基于大语言模型的未知Web攻击威胁检测
  • 长宁网站设计wordpress极速版
  • Linux - 进程状态
  • 基于selenium库的爬虫实战:京东手机数据爬取
  • 少儿编程:课程体系和学习计划
  • 江苏盐城网站开发wordpress添加版块
  • 【Linux】安装配置mysql中出现的问题2
  • 《火锅梦想》,公交座椅广告文案“错位”的诗意
  • 买域名去哪个网站好学室内设计学费大概要多少钱
  • Linux系统编程-信号(黑马笔记)
  • # 深入理解Linux内核与用户态通信:Netlink机制实战
  • 基于PostgreSQL的TDE透明加密解决方案:构建数据全生命周期的国密合规安全体系
  • 《Linux 进程(1)概念入门:从 “运行的程序” 到核心定义》
  • mac | Windows 本地部署 Seata1.7.0,Nacos 作为配置中心、注册中心,MySQL 存储信息
  • Windows 安全分割利器:strtok_s () 详解
  • 第五章:原型模式 - 克隆大法的大师
  • 做外贸公司网站wordpress the7 4..4.8
  • 网站的设计与应用论文开发公司挖出的沙子归谁
  • 玩转Docker小游戏项目系列:Docker部署坦克大战经典小游戏
  • 关于[一个人、手搓游戏的可能性]之(搓程序)
  • 西窗烛 7.1.0 | 赏中华诗词,品生活之美,解锁会员功能,解锁字体下载和书籍阅读
  • 【51单片机】【protues仿真】基于51单片机汽车智能灯光控制系统
  • Redis 有序集合解析
  • 用 C++ 快速搭建 WebSocket 服务及踩坑记录
  • 清华大学AI领导力AI时代领导力AI变革领导力培训师培训讲师专家唐兴通讲授数字化转型人工智能组织创新实践领导力国央企国有企业金融运营商制造业
  • pink老师html5+css3day04