参数两和显存占用计算
- 实用建议
计算显存需求时,建议预留20-30%的余量
大模型部署通常使用半精度(fp16)以节省显存
量化技术可以进一步减少显存占用,但可能影响模型精度
通过这个计算方法,你可以快速估算出不同规模模型在不同精度下的显存需求,为硬件选型提供参考。
1B"的全称是"1 Billion",表示十亿;而"1M"的全称是"1 Million",表示一百万。
B和G都是十亿(1000M或1024M)的意思,M是100万的意思。
模型参数有xB就是说有x十亿个参数。
显存有多少G/M是说有多少G/M个字节(byte),1个字节=8比特(bit)。
1字节(Byte)通常由8个比特组成,FP32使用4字节(32位)表示一个浮点数,而FP16使用2字节(16位)表示一个浮点数
1B模型参数对应多少G内存和参数的精度有关,如果是全精度训练(fp32),一个参数对应32比特,也就是4个字节,参数换算到显存的时候要乘4,也就是1B模型参数对应4G显存,如果是fp16或者bf16就是乘2,1B模型参数对应2G显存。
参考文献1