当前位置: 首页 > news >正文

大模型训练微调和推理阶段的显存对比分析

       随着AI的普及,大家在使用大模型过程中经常提及7b,32b,甚至671b等等,究竟是什么意思呢,其实这个“b”就是 billion(十亿) 的缩写,一般是指AI大模型的 参数(Parameters) 数量,而且只有上千万参数量才可能称作为大模型,比如deepseek-r1:7b就是一个参数量为70亿的大模型,Qwen3-72b表示一个参数量为720亿的大模型。我们只要搞懂了这些参数,以后再也不怕被那些技术名词唬住了。大模型的生命周期主要包含训练(Training)微调(Fine-tuning)推理(Inference)三个阶段**,不同阶段的显存需求是完全不同的,一般三者的显存对比分析如下。

一、训练

训练阶段的算力要求是三个阶段最高的,主要关注运算性能 (TFLOPS)、GPU 数量、高速互联(如NVLink、Infiniband)保障数据传输效率。训练算力需求一般随模型参数量和数据集规模呈指数级增长,常见的公式是所需总算力(FLOPs)=6×P×D,这里的P是模型参数量,D是用于训练的数据量(即词源Tokens)。因此,总算力取决于参数量和数据量,参数量其实也取决于数据量,只有用于训练的数据量达到一定规模才能构建出可用的模型。
训练阶段的显存要求是三个阶段最高的,主要关注模型参数 (P) 、 梯度 、优化器状态和激活值等,同时需要存储用于优化计算的多个数据副本。比如deepseek-r1:7b,在训练过程中,用于存储模型状态 (参数+梯度+优化器)的显存为12X7B=84GB,用于存储激活值的显存为80GB,再加上多个数据的副本约40GB,合计200GB,相当于三张80G的A100。

一、微调

微调分为全量微调和高效微调
全量微调:显存要求一般是模型参数大小的16-20倍,比如deepseek-r1:7b,需要显存16X7=120GB以上,相当于两张80G的A100。
高效微调(LoRA):显存一般是模型参数大小的3-5倍,比如deepseek-r1:7b,需要显存3X7=20GB以上,相当于1张40G的A100。有时候也会用到量化微调(即Q-LoRA),相当于比LoRA所需的算力还低。

二、推理

推理阶段仅涉及模型的前向传播,主要来自模型参数和 KV Cache,显存需求远低于微调。推理更关注延迟和并发能力,可通过量化、缓存、并行等方式优化。
单条推理:显存一般是模型参数大小的1-3倍,比如deepseek-r1:7b,需要显存1X7=7GB以上,相当于单卡RTX 3090/4090,8G显存或24G显存,DeepSeek-R1:72b,需要显存1X72=72GB以上,相当于两张40G的A100。

http://www.dtcms.com/a/447602.html

相关文章:

  • 高端的家居行业网站开发昆明网站推广价格
  • 做商城网站技术要点成都网站建设方案服务
  • 企业网站系统建设需求调研表给平面设计素材网站做素材挣钱吗
  • ps免费模板网站视频号关键词搜索排名
  • 网络营销企业网站优化Wordpress 新建标签
  • 网站建设层级图千图网素材解析网站开发
  • 辽阳网站推广公众号运营收费标准
  • C#实现三菱FX3SA PLC串口通信测试实例
  • 公司网站如何注册政务门户网站建设
  • 10.5交作业
  • 网站建设的数据所有权网页浏览器是系统软件吗
  • 事业单位网站后台建设方案建立网站一般包括什么等方式
  • 外贸做网站公司哪家好郑州高端网站案例
  • html5做网站优势东莞公司企业设计网站建设
  • 制作网站图片不显示百度招商加盟
  • 建设实验教学网站的作用有免费建站的网站
  • 表白网页制作免费网站深圳人口1756万
  • 沈阳网站建设找思路手机上干点啥能挣零花钱
  • 企业网站软件用asp做网站遇到的问题
  • 【Android】支持在线打开的文件浏览服务器开发流程讲解
  • 太原做企业网站的简洁企业网站
  • 中国邮政做特产的网站建一个网站怎么赚钱
  • 广州网站建设知名乐云seoseo关键词排名软件流量词
  • 网站备案 图标郑州做网站的论坛
  • 【Java核心技术/基础】30道Java集合框架面试题及答案
  • 福州市建设局网站 动态网站更改
  • 北京移动网站建设公司排名网站优化效果
  • ip子域名二级域名解析企业网站优化分为哪两个方向
  • 做网贷网站宁波公司建站模板
  • 怎么搭建自己的网站平台cms模板