当前位置：首页 > news >正文

大模型训练微调和推理阶段的显存对比分析

news 2025/10/6 16:10:48

随着AI的普及，大家在使用大模型过程中经常提及7b，32b，甚至671b等等，究竟是什么意思呢，其实这个“b”就是 billion（十亿） 的缩写，一般是指AI大模型的 参数（Parameters） 数量，而且只有上千万参数量才可能称作为大模型，比如deepseek-r1:7b就是一个参数量为70亿的大模型，Qwen3-72b表示一个参数量为720亿的大模型。我们只要搞懂了这些参数，以后再也不怕被那些技术名词唬住了。大模型的生命周期主要包含训练（Training）、微调（Fine-tuning）和推理（Inference）三个阶段**，不同阶段的显存需求是完全不同的，一般三者的显存对比分析如下。

一、训练

训练阶段的算力要求是三个阶段最高的，主要关注运算性能 (TFLOPS)、GPU 数量、高速互联（如NVLink、Infiniband）保障数据传输效率。训练算力需求一般随模型参数量和数据集规模呈指数级增长，常见的公式是所需总算力(FLOPs)=6×P×D，这里的P是模型参数量，D是用于训练的数据量（即词源Tokens）。因此，总算力取决于参数量和数据量，参数量其实也取决于数据量，只有用于训练的数据量达到一定规模才能构建出可用的模型。
训练阶段的显存要求是三个阶段最高的，主要关注模型参数 (P) 、梯度、优化器状态和激活值等，同时需要存储用于优化计算的多个数据副本。比如deepseek-r1:7b，在训练过程中，用于存储模型状态 (参数+梯度+优化器)的显存为12X7B=84GB，用于存储激活值的显存为80GB，再加上多个数据的副本约40GB，合计200GB，相当于三张80G的A100。

一、微调

微调分为全量微调和高效微调
全量微调：显存要求一般是模型参数大小的16-20倍，比如deepseek-r1:7b，需要显存16X7=120GB以上，相当于两张80G的A100。
高效微调（LoRA)：显存一般是模型参数大小的3-5倍，比如deepseek-r1:7b，需要显存3X7=20GB以上，相当于1张40G的A100。有时候也会用到量化微调（即Q-LoRA），相当于比LoRA所需的算力还低。

二、推理

推理阶段仅涉及模型的前向传播，主要来自模型参数和 KV Cache，显存需求远低于微调。推理更关注延迟和并发能力，可通过量化、缓存、并行等方式优化。
单条推理：显存一般是模型参数大小的1-3倍，比如deepseek-r1:7b，需要显存1X7=7GB以上，相当于单卡RTX 3090/4090，8G显存或24G显存，DeepSeek-R1:72b，需要显存1X72=72GB以上，相当于两张40G的A100。