当前位置: 首页 > news >正文

参数两和显存占用计算

  • 实用建议
    计算显存需求时,建议预留20-30%的余量
    大模型部署通常使用半精度(fp16)以节省显存
    量化技术可以进一步减少显存占用,但可能影响模型精度
    通过这个计算方法,你可以快速估算出不同规模模型在不同精度下的显存需求,为硬件选型提供参考。

1B"的全称是"1 Billion",表示十亿;而"1M"的全称是"1 Million",表示一百万。
B和G都是十亿(1000M或1024M)的意思,M是100万的意思。
模型参数有xB就是说有x十亿个参数。
显存有多少G/M是说有多少G/M个字节(byte),1个字节=8比特(bit)。
1字节(Byte)通常由8个比特组成,FP32使用4字节(32位)表示一个浮点数,而FP16使用2字节(16位)表示一个浮点数
1B模型参数对应多少G内存和参数的精度有关,如果是全精度训练(fp32),一个参数对应32比特,也就是4个字节,参数换算到显存的时候要乘4,也就是1B模型参数对应4G显存,如果是fp16或者bf16就是乘2,1B模型参数对应2G显存。

参考文献1


相关文章:

  • 怎么制作网站模版google app下载
  • seo整站优化费用网络公司推广方案
  • 做的好的手机网站互联网企业营销策略
  • 江苏网站建设包括哪些哈尔滨网站建设
  • 银川建企业模板网站网站搜索排名优化怎么做
  • 做哪种网站流量大三只松鼠营销策划书
  • 高性能的内存数据存储系统-Redis
  • 微信小程序适配 iPhone 底部导航区域(safe area)的完整指南
  • C# 中 逻辑运算符 - 逻辑与,短路
  • C# Avalonia 绑定模式 Mode 的区别,它们的应用场景
  • thinkphp8之文件上传
  • 永磁同步电机无速度算法--基于同步旋转坐标系锁相环的滑模观测器
  • Matlab里的默认配色推荐
  • 时序数据库 TDengine 助力华锐 D5 平台实现“三连降”:查询快了,机器少了,成本也低了
  • Node.js-fs模块
  • FPGA笔记——ZYNQ-7020运行PS端的USB 2.0端口作为硬盘
  • 多模态AI:让机器像人一样“全感官”理解世界
  • Vue计算属性与监视属性
  • 【数字后端】- 什么是天线效应(Antenna Effect)?如何修复?
  • 黑马python(十六)
  • 【DataWhale组队学习】AI办公实践与应用-数据分析
  • 3 大语言模型预训练数据-3.2 数据处理-3.2.2 冗余去除——2.SimHash算法文本去重实战案例:新闻文章去重场景
  • SpringBoot(九)--- HttpClient、Spring Cache、Spring Task、WebSocket
  • 【图论题典】Swift 解 LeetCode 最小高度树:中心剥离法详解
  • Git知识梳理常见问题
  • 04-html元素列表-表格-表单