当前位置：首页 > news >正文

模型学习系列之参数

news 2025/11/14 3:08:16

背景

“GLM-4.5拥有 3550 亿总参数量，其中 320 亿活跃参数；GLM-4.5-Air 采用更紧凑的设计，拥有 1060 亿总参数量，其中 120 亿活跃参数。”

定义与关系

总参数量：模型中所有可训练参数的总和（包括嵌入层、注意力层、前馈网络等），反映模型的理论容量。
活跃参数：在单次前向传播中实际参与计算的参数子集。例如：
- 稀疏激活模型（如MoE）：每次只激活部分专家网络（如Switch Transformer每次激活1/8的专家）。
- 动态参数共享（如LoRA、AdaLoRA）：通过低秩分解或掩码动态选择参数。
- 条件计算（如专家选择、路由机制）：根据输入动态决定激活哪些路径。

关系：
活跃参数 ≤ 总参数量（通常远小于）。例如，Switch Transformer总参数量1.6T，但单次计算仅激活约50B参数（活跃参数占比~3%）。

作用与意义

（1）效率提升

计算成本：活跃参数直接决定FLOPs和内存占用。稀疏激活（如MoE）允许在总参数量极大时，仍保持低计算量（如GPT-3 175B的FLOPs vs. MoE-1T的FLOPs可能相近）。
存储优化：通过参数共享（如LoRA）或量化，减少实际存储需求（例如Meta的LLaMA-65B通过4-bit量化压缩至33GB）。

（2）性能与容量的权衡

总参数量：提供潜在容量（如知识存储），但需通过稀疏激活或动态路由有效利用。例如：
- MoE模型：总参数量大（如GLaM 1.2T），但活跃参数少（96B），在多项任务上超越GPT-3（175B全激活）。
- 过拟合风险：总参数量过大但活跃参数不足时，可能因参数利用率低导致欠拟合。

（3）训练与推理的差异化设计

训练阶段：总参数量影响梯度更新范围，但可通过梯度稀疏化（如ZeRO-3、DeepSpeed）减少实际通信量。
推理阶段：通过动态剪枝（如Block-Sparse Attention）或专家卸载（如MoE的路由缓存），进一步降低活跃参数。

总参数量是模型的“潜在智慧”，而活跃参数是其“实际执行力”。二者的分离设计（如稀疏化、动态路由）是大模型突破规模限制的核心技术，使得“用更少的计算，实现更强的性能”成为可能。

http://www.dtcms.com/a/313637.html

相关文章：

pytorch深度学习全流程：以简易数据、模型介绍

linux火焰图

vuhub Noob靶场攻略

雪花算法重复id问题

Maxscript在选择的可编辑多边形每个面上绘制一个内部圆形

自动驾驶中的传感器技术19——Camera（10）

OS21.【Linux】环境变量

CMake 命令行参数完全指南（5）

graph TD的规则

Linux Deepin深度操作系统应用商店加载失败，安装星火应用商店

io_getevents 和 io_pgetevents 系统调用及示例

[硬件电路-145]：模拟电路 - 常见的电源芯片、用途、管脚定义

深度学习-读写模型网络文件

大模型设计

学习方法论

智能化设备维护：开启高效运维新时代

前端异步任务处理总结

Maven - 依赖的生命周期详解

服务端技术栈分类总结

模型预估打分对运筹跟踪的影响

数据结构：单向链表的函数创建

[硬件电路-141]：模拟电路 - 源电路，信号源与电源，能自己产生确定性波形的电路。

高质量数据集｜大模型技术正从根本上改变传统数据工程的工作模式

RapidIO/SRIO 入门之什么是SRIO

环绕字符串中的唯一子字符串-动态规划

[2025ICCV-目标检测方向]DuET：通过无示例任务算术进行双增量对象检测

1.内核模块

C语言基础03——数组——习题

工作笔记-----IAP的相关内容

8大图床高速稳定网站，值得长期选用