当前位置: 首页 > news >正文

优化器/模型参数/超参数

参数(Parameters) vs. 超参数(Hyperparameters)

1.1 参数(Parameters)
  • 定义:模型中需要学习的变量,例如神经网络中的权重(Weight)和偏置(Bias)。
  • 例子
    • 线性回归中的 ww 和 bb(y=wx+by=wx+b)。
    • BERT中的注意力权重、全连接层的参数。
  • 调整者优化器(Optimizer) 负责调整这些参数,使其在训练过程中不断优化。
1.2 超参数(Hyperparameters)
  • 定义:由开发者手动设置的参数,控制训练过程,但不会被优化器直接学习
  • 例子
    • 优化器类型(如Adam、SGD)。
    • 学习率(Learning Rate)(如 lr=2e-5)。
    • 批量大小(Batch Size)(如 batch_size=32)。
    • 训练轮次(Epochs)(如 num_epochs=5)。
  • 调整者开发者 需要手动调整或通过超参数优化技术(如网格搜索)寻找最佳值。
  • 超参数的调整需要人工干预超参数优化算法,例如:

  • 手动调整:尝试不同的学习率(如 1e-45e-5)。
  • 超参数优化工具
    • 网格搜索(Grid Search):遍历超参数组合。
    • 贝叶斯优化(Bayesian Optimization):智能搜索最佳超参数。
    • 随机搜索(Random Search):随机尝试超参数组合。

2. 优化器的作用

优化器只调整模型参数(Parameters),不调整超参数(Hyperparameters)
  • 优化器的核心任务
    根据损失函数的梯度自动更新模型参数(如权重、偏置),使其在训练过程中逐步优化。
  • 优化器无法调整超参数
    超参数(如学习率、优化器类型)是开发者预先设置的,优化器只能按照这些超参数的规则工作。
  • 概念定义谁调整它?例子
    参数模型的可学习变量(权重、偏置)优化器(自动调整)BERT的注意力权重、线性层的 ww
    超参数开发者设置的训练控制参数开发者或超参数工具学习率、批量大小、优化器类型

相关文章:

  • Python生成requirements.txt的两种方法
  • 【数据分析】数据筛选(布尔索引:多个判断条件)
  • RHCE综合实验
  • LS-NET-004-简单二层环路解决(华为锐捷思科)
  • kotlin @JvmStatic的使用
  • 【C++】STL(1) - 序列容器
  • 在C#的MVC框架framework项目的使用ajax,及源码下载
  • 织梦DedeCMS后台发布文章增加“顶”和“踩”默认随机值,并可后台修改
  • [Windows] OfficeAI 助手 v0.3.20(长期免费,本地支持WPS/Word联动)
  • Java多线程与高并发专题——在 Thread 中多个 ThreadLocal 是怎么存储的?
  • langgraph简单Demo(使用langserve实现外部调用)
  • 解码软件需求的三个维度:从满足基础到创造惊喜
  • UMA架构下的GPU 显存
  • 4、MySQL的存储引擎有哪些?【中高频】
  • 蓝桥杯篇---按键长按与双击
  • 机试准备最后一天
  • electron框架(1.0)认识electron和基础创建
  • Elasticsearch基础教程:从入门到上手
  • 大话数据结构第二章,算法笔记
  • Oracle 公布 Java 的五大新功能
  • 北京今日白天超30℃晚间下冰雹,市民称“没见过这么大颗的”
  • 多元史料下的“西狩”叙事——《“庚子西狩”中外资料六种》解题
  • 举牌代跳明码标价、留言不堪入目,未成年人擦边短视频成引流利器
  • 外交部发言人就印巴局势升级答记者问
  • 五粮液董事长:茅台1935已脱离千元价位带,五粮液在千元价位已逐步摆脱其他竞品纠缠
  • 中日有关部门就日本水产品输华问进行第三次谈判,外交部回应