NLP高频面试题(三十七)——大模型训练和推理的显存估计
在训练和推理大型语言模型时,显存(GPU 内存)的需求是一个关键考虑因素。准确估计这些需求有助于选择合适的硬件配置,确保模型高效运行。
推理阶段的显存需求
在推理过程中,显存主要用于存储模型权重和中间激活值。模型权重的显存需求可以通过以下公式估算:
模型权重显存 = 参数数量 × 每个参数的字节数
例如,对于一个具有 70 亿(7B)参数的模型:
- FP32(32 位精度):7B × 4 字节 = 28 GB
- FP16(16 位精度):7B × 2 字节 = 14 GB
- INT8(8 位量化):7B × 1 字节 = 7 GB
- INT4(4 位量化):7B × 0.5 字节 = 3.5 GB
此外,中间激活值的显存需求取决于批量大小(batch size)、序列长度(sequence length)等因素。通常情况下,推理阶段的中间激活值占用的显存相对较小,但在处理