当前位置: 首页 > news >正文

Weight decay 和 L2 Regularization

Weight Decay

weight decay是在参数更新规则中直接衰减权重即 θ←(1−ηλ)θ\theta \leftarrow (1-\eta \lambda)\thetaθ(1ηλ)θ
其核心思想在于对权重进行缩放,强制衰减。

L2 regularization

L2正则则是在损失函数上添加一项λ2∣∣θ∣∣2\frac{\lambda}{2}||\theta||^22λ∣∣θ2,其思想是通过优化带正则项的顺势函数,间接限制权重大小。

异同

两者在SGD算法中在形式上是等价的
这是由于L2正则的梯度刚好等于使用权重衰减的内容
L2正则的梯度
∇θ(Ldata+λ2∣∣θ∣∣2)=∇θLdata+λθθt+1=θt−η∇θ(Ldata+λ2∣∣θ∣∣2)=(1−ηλ)θt−η∇θLdata\nabla_{\theta}(L_{data} + \frac{\lambda}{2}||\theta||^2)=\nabla_{\theta}L_{data}+\lambda\theta \\ \theta_{t+1}=\theta_{t}-\eta \nabla_{\theta}(L_{data} + \frac{\lambda}{2}||\theta||^2) \\= (1-\eta\lambda)\theta_t -\eta \nabla_{\theta}L_{data}θ(Ldata+2λ∣∣θ2)=θLdata+λθθt+1=θtηθ(Ldata+2λ∣∣θ2)=(1ηλ)θtηθLdata
这和权重衰减在形式上完全一致

而在使用其他优化器如Adam、RMSProp、AdaGrad时,由于对学习率进行了缩放,所以两者并不一样。
在这里插入图片描述

http://www.dtcms.com/a/446449.html

相关文章:

  • 游戏源码网站免费企业网站建设教程 pdf
  • 全网品牌营销泰安搜索引擎优化招聘
  • Win11上VS Code免输密码连接Ubuntu的正确设置方法
  • 江西建设推广网站百度seo培训课程
  • 基于RT-Thread的STM32开发第十讲——CAN通讯
  • Transformer时序预测模型对比传统LSTM的优劣
  • 随机试验中异质性处理效应的通用机器学习因果推断
  • ClaudeCode真经第七章:未来发展与技术展望
  • 利用DeepSeek辅助给duckdb_pgwire插件添加psql终端输出int128功能
  • 做网站在百度云盘登录
  • 亿企邦网站建设服务器租用免费试用
  • Coze源码分析-资源库-编辑知识库-后端源码-应用/领域/数据访问层
  • 做移动网站点击软件吗网站后台管理系统安装
  • 网站统计排名哪家网站雅虎全球购做的好
  • 福彩体彩10月5号数据分享
  • Java——文件相关知识
  • Hadess入门到实战(7) - 如何管理Pypi(Python)制品
  • RDMA 技术解析(1):RDMA 技术三国志 ——IB、RoCE、iWARP 的选型博弈
  • wordpress文章提交江苏网站快速排名优化
  • 【自记】MaxCompute中的冒烟测试
  • Linux : 动静态库制作、ELF格式
  • 如何制作电脑公司网站关键词怎么优化到百度首页
  • seo的全称是什么广州关于进一步优化
  • 南京设计网站免费做网站tk
  • YOLO算法原理详解系列 第004期-YOLOv4 算法原理详解
  • 高层次综合的基础-vivado_hls第二章
  • 市面上常见显示屏接口与对应的引脚
  • 天津网站建设方案维护网站开发实践教程
  • 网站源码出售wordpress 3.2.1
  • 西安网站注册个人建设网站成本