当前位置: 首页 > news >正文

大语言模型推理中的显存优化 有哪些

大语言模型推理中的显存优化 有哪些

目录

    • 大语言模型推理中的显存优化 有哪些
      • 显存优化背景
      • Offloading/Checkpoint原理
      • 举例

显存优化背景

在大语言模型推理时,显存是显著瓶颈。以开源的BLOOM 176B模型为例,在8张A100计算卡上,通常对话设置下仅能进行批量为10左右的推理。为缓解显存压力,常采用显存池、显存卸载/加载等技术。

Offloading/Checkpoint原理

显存卸载(Offloading)是应对大量中间结果引发显存问题的技术。当显存容量有限时,把暂时用不到的中间结果乃至模型参数转移到主存甚至磁盘。在个人工作站等显存和计算卡数量受限的推理场景中适用存储卸载和加载过程能与计算过程重叠,保障整体吞吐量。为减少参数存储卸载/加载次数,可在一次加载参数后进行较多批量的推理。不过,因计算能力有限,大语言模型会有较大延时,适用于时间敏感度低的推理任务。

举例

假设要处理一批包含100篇长文本的情感分析任务,使用大语言模型进行推理。模型在处理文本过程中会产生大量中间结果,如每一层神经网络计算后的输出等。

由于工作站显存有限,无法同时存储所有中间结果和模型参数。这时就可

相关文章:

  • 可编程超表面任意旋转偏振方向并以线性和非线性方式操控相位
  • cpu、gpu查看
  • Ollama 安装命令
  • [C++]多态详解
  • DeepSeek 通过 API 对接第三方客户端 告别“服务器繁忙”
  • C++演示中介模式
  • 【设计模式】03-理解常见设计模式-行为型模式(专栏完结)
  • SpringBoot多数据源实践:基于场景的构建、实现和事务一体化研究
  • 第1825天 | 我的创作纪念日:缘起、成长经历、大方向
  • 使用动态规划解决 0/1 背包问题
  • 【mybatis】基本操作:详解Spring通过注解和XML的方式来操作mybatis
  • 前台、后台、守护进程对比,进程组的相关函数
  • 开源ZLMediaKit流媒体服务框架编译使用验证
  • [NOIP2001]统计单词个数
  • vue3-02基础认识vue3中main.js入口文件,app.vue(不存在唯一根节点),扩展程序vue-devtools安装
  • spark任务运行
  • Nessus 工具使用全攻略
  • C++ Primer 函数重载
  • 共享存储-一步一步部署ceph分布式文件系统
  • luoguP8764 [蓝桥杯 2021 国 BC] 二进制问题
  • 外交部部长助理兼礼宾司司长洪磊接受美国新任驻华大使递交国书副本
  • 白玉兰奖征片综述丨海外剧创作趋势观察:跨界·融变·共生
  • 查幽门螺杆菌的这款同位素长期被海外垄断,秦山核电站实现突破
  • 专家:家长要以身作则,孩子是模仿者学习者有时也是评判者
  • 美将解除对叙利亚制裁,外交部:中方一贯反对非法单边制裁
  • 上海锦江乐园摩天轮正在拆除中,预计5月底6月初拆完