当前位置: 首页 > news >正文

深度学习调参技巧总结

  1. 先overfit 再trade off,首先保证你的模型capacity能够过拟合,再尝试减小模型,各种正则化方法
  2. 学习率 ,最重要的参数,一般nlp bert类模型在1e-5级别附近,warmup,衰减;cv类模型在1e-3级别附近,衰减;学习率的设置,一般可以先从1e-3、3e-4、1e-4开始,用类似二分的方法迭代搜索;
  3. 学习率衰减很有用,设置一个指数衰减的scheduler,衰减率0.99,是一个不错的选择,当然,如果训练集很大,也可以增大衰减率
  4. batch size 在表征学习,对比学习领域一般越大越好,显存不够上累计梯度,否则模型可能不收敛,其他领域看情况;当然,batch有的时候并非越大越好,虽然batch越大训练越快,但有的时候batch太大网络性能会降低,有的时候减小batch有奇效
  5. dropout,现在大部分任务都需要使用预训练模型,要注意模型内部dropout ratio是一个很重要的参数,使用默认值不一定最优,有时候dropout reset到0有奇效
  6. 初始化方法,linear / cnn一般选用kaiming uniform 或者normalize,embedding 一般选择截断 normalize;如果训练一开始不容易收敛或陷入局部最优,可以试试更换网络初始化方法,虽然pytorch默认会进行初始化,但试试别的初始化方法也是一种不错的选择
  7. 序列输入上LN,非序列上BN
  8. 基于banckbone 构建层次化的neck 一般都比直接使用最后一层输出要好,reduce function 一般attention 优于简单pooling,多任务需要构建不同的qkv
  9. 数据增强要结合任务本身来设计
  10. 随机数种子设定好,否则很多对比实验结论不一定准确;如果数据集不是很大,而且性能离基线系统差距不大,可以试试指定批量跑一批随机种子,然后早停,选loss下降的随机种子进行深度训练,有可能就能找到一个有所突破的结果
  11. cross validation方式要结合任务设计,数据标签设计,其中时序数据要避免未来信息泄漏
  12. 不知道用啥优化器,就用Adam,对绝大多数问题都有不错的效果
  13. 为网络增加各种norm:batchnorm、weightnorm、layernorm、groupnorm等等,不一定有用,但也是可能的优化方向,最重要的是代码改动不大
  14. 对于激活函数,relu也在大多数情况下表现不错,当然也可以试试leakyrelu和prelu
    在这里插入图片描述
http://www.dtcms.com/a/321292.html

相关文章:

  • 5 种简单方法将 Safari 书签转移到新 iPhone
  • 商品期货场外期权系统解决方案:跨境金融科技赋能大宗商品风险管理
  • duxapp 2025-05-29 更新 兼容鸿蒙C-API方案,现在鸿蒙端可以用于生产
  • 中小业务遭遇网络攻击,防护能力不足的解决办法​
  • 滑动窗口与双指针训练
  • 机器学习概念2
  • 数据库冗余设计:平衡性能与一致性的艺术
  • 机器学习-Logistic Regression
  • Android Studio第一个kotlin项目“Hello Android”
  • 解决Ollama外部服务器无法访问:配置 `OLLAMA_HOST=0.0.0.0` 指南
  • 鲸签云解决互联网行业合同管理难题​
  • 北京-4年功能测试2年空窗-报培训班学测开-第七十一天-面试第二天
  • 内容分发机制研究:实测一款多源短视频聚合App
  • C++中的继承:从基础到复杂
  • 从零构建TransformerP1-了解设计
  • FreeRTOS入门知识(初识RTOS)(一)
  • Nginx 部署前端项目、负载均衡与反向代理
  • Seaborn 学习笔记
  • DigitalProductId解密算法php版
  • 「安全发」ISV对接支付宝+小猎系统
  • Prometheus 通过读取文件中的配置来监控目标
  • [ MySQL 数据库 ] 环境安装配置和使用
  • Rocky Linux 安装 Google Chrome 浏览器
  • (附源码)基于SpringBoot的高校爱心捐助平台的设计与实现
  • USB (Universal Serial Bus,通用串行总线)
  • K次取反后最大化的数组和
  • [案例十] NX二次开发批量替换组件功能(装配环境)
  • 【Open3D】基础操作之三维数据结构的高效组织和管理
  • 【FreeRTOS】任务间通讯3:互斥量- Mutex
  • ctrl+alt+方向键导致屏幕旋转的解决方法