当前位置: 首页 > news >正文

模型学习系列之参数

背景

“GLM-4.5拥有 3550 亿总参数量,其中 320 亿活跃参数;GLM-4.5-Air 采用更紧凑的设计,拥有 1060 亿总参数量,其中 120 亿活跃参数。”

定义与关系

  • 总参数量:模型中所有可训练参数的总和(包括嵌入层、注意力层、前馈网络等),反映模型的理论容量
  • 活跃参数:在单次前向传播中实际参与计算的参数子集。例如:
    • 稀疏激活模型(如MoE):每次只激活部分专家网络(如Switch Transformer每次激活1/8的专家)。
    • 动态参数共享(如LoRA、AdaLoRA):通过低秩分解或掩码动态选择参数。
    • 条件计算(如专家选择、路由机制):根据输入动态决定激活哪些路径。

关系
活跃参数 ≤ 总参数量(通常远小于)。例如,Switch Transformer总参数量1.6T,但单次计算仅激活约50B参数(活跃参数占比~3%)。

作用与意义

(1)效率提升
  • 计算成本:活跃参数直接决定FLOPs和内存占用。稀疏激活(如MoE)允许在总参数量极大时,仍保持低计算量(如GPT-3 175B的FLOPs vs. MoE-1T的FLOPs可能相近)。
  • 存储优化:通过参数共享(如LoRA)或量化,减少实际存储需求(例如Meta的LLaMA-65B通过4-bit量化压缩至33GB)。
(2)性能与容量的权衡
  • 总参数量:提供潜在容量(如知识存储),但需通过稀疏激活或动态路由有效利用。例如:
    • MoE模型:总参数量大(如GLaM 1.2T),但活跃参数少(96B),在多项任务上超越GPT-3(175B全激活)。
    • 过拟合风险:总参数量过大但活跃参数不足时,可能因参数利用率低导致欠拟合。
(3)训练与推理的差异化设计
  • 训练阶段:总参数量影响梯度更新范围,但可通过梯度稀疏化(如ZeRO-3、DeepSpeed)减少实际通信量。
  • 推理阶段:通过动态剪枝(如Block-Sparse Attention)或专家卸载(如MoE的路由缓存),进一步降低活跃参数。

总参数量是模型的“潜在智慧”,而活跃参数是其“实际执行力”。二者的分离设计(如稀疏化、动态路由)是大模型突破规模限制的核心技术,使得“用更少的计算,实现更强的性能”成为可能。

http://www.dtcms.com/a/313637.html

相关文章:

  • pytorch深度学习全流程:以简易数据、模型介绍
  • linux火焰图
  • vuhub Noob靶场攻略
  • 雪花算法重复id问题
  • Maxscript在选择的可编辑多边形每个面上绘制一个内部圆形
  • 自动驾驶中的传感器技术19——Camera(10)
  • OS21.【Linux】环境变量
  • CMake 命令行参数完全指南(5)
  • graph TD的规则
  • Linux Deepin深度操作系统应用商店加载失败,安装星火应用商店
  • io_getevents 和 io_pgetevents 系统调用及示例
  • [硬件电路-145]:模拟电路 - 常见的电源芯片、用途、管脚定义
  • 深度学习-读写模型网络文件
  • 大模型设计
  • 学习方法论
  • 智能化设备维护:开启高效运维新时代
  • 前端异步任务处理总结
  • Maven - 依赖的生命周期详解
  • 服务端技术栈分类总结
  • 模型预估打分对运筹跟踪的影响
  • 数据结构:单向链表的函数创建
  • [硬件电路-141]:模拟电路 - 源电路,信号源与电源,能自己产生确定性波形的电路。
  • 高质量数据集|大模型技术正从根本上改变传统数据工程的工作模式
  • RapidIO/SRIO 入门之什么是SRIO
  • 环绕字符串中的唯一子字符串-动态规划
  • [2025ICCV-目标检测方向]DuET:通过无示例任务算术进行双增量对象检测
  • 1.内核模块
  • C语言基础03——数组——习题
  • 工作笔记-----IAP的相关内容
  • 8大图床高速稳定网站,值得长期选用