当前位置：首页 > news >正文

Weight decay 和 L2 Regularization

news 2025/10/6 8:58:28

Weight Decay

weight decay是在参数更新规则中直接衰减权重即 $θ←(1−ηλ)θ\theta \leftarrow (1-\eta \lambda)\theta$
其核心思想在于对权重进行缩放，强制衰减。

L2 regularization

L2正则则是在损失函数上添加一项 $λ2∣∣θ∣∣2\frac{\lambda}{2}||\theta||^2$ ，其思想是通过优化带正则项的顺势函数，间接限制权重大小。

异同

两者在SGD算法中在形式上是等价的
这是由于L2正则的梯度刚好等于使用权重衰减的内容
L2正则的梯度
$∇θ(Ldata+λ2∣∣θ∣∣2)=∇θLdata+λθθt+1=θt−η∇θ(Ldata+λ2∣∣θ∣∣2)=(1−ηλ)θt−η∇θLdata\nabla_{\theta}(L_{data} + \frac{\lambda}{2}||\theta||^2)=\nabla_{\theta}L_{data}+\lambda\theta \\ \theta_{t+1}=\theta_{t}-\eta \nabla_{\theta}(L_{data} + \frac{\lambda}{2}||\theta||^2) \\= (1-\eta\lambda)\theta_t -\eta \nabla_{\theta}L_{data}$
这和权重衰减在形式上完全一致

而在使用其他优化器如Adam、RMSProp、AdaGrad时，由于对学习率进行了缩放，所以两者并不一样。
在这里插入图片描述

http://www.dtcms.com/a/446449.html

相关文章：

游戏源码网站免费企业网站建设教程 pdf

全网品牌营销泰安搜索引擎优化招聘

Win11上VS Code免输密码连接Ubuntu的正确设置方法

江西建设推广网站百度seo培训课程

基于RT-Thread的STM32开发第十讲——CAN通讯

Transformer时序预测模型对比传统LSTM的优劣

随机试验中异质性处理效应的通用机器学习因果推断

ClaudeCode真经第七章：未来发展与技术展望

利用DeepSeek辅助给duckdb_pgwire插件添加psql终端输出int128功能

做网站在百度云盘登录

亿企邦网站建设服务器租用免费试用

Coze源码分析-资源库-编辑知识库-后端源码-应用/领域/数据访问层

做移动网站点击软件吗网站后台管理系统安装

网站统计排名哪家网站雅虎全球购做的好

福彩体彩10月5号数据分享

Java——文件相关知识

Hadess入门到实战(7) - 如何管理Pypi(Python)制品

RDMA 技术解析（1）：RDMA 技术三国志 ——IB、RoCE、iWARP 的选型博弈

wordpress文章提交江苏网站快速排名优化

【自记】MaxCompute中的冒烟测试

Linux : 动静态库制作、ELF格式

如何制作电脑公司网站关键词怎么优化到百度首页

seo的全称是什么广州关于进一步优化

南京设计网站免费做网站tk

YOLO算法原理详解系列第004期-YOLOv4 算法原理详解

高层次综合的基础-vivado_hls第二章

市面上常见显示屏接口与对应的引脚

天津网站建设方案维护网站开发实践教程

网站源码出售wordpress 3.2.1

西安网站注册个人建设网站成本