当前位置: 首页 > news >正文

大模型实战营Day5笔记

大模型部署背景
        大模型部署是指将训练好的模型在特定的软硬件环境中启动的过程,使模型能够接收输入并返回预测结果。大模型的内存开销巨大,7B模型仅权重需要14G内存。另外大模型是自回归生成,需要缓存Attention的 k/v。

LMDeploy 简介如下:


推理性能如图所示:


核心功能-量化
        量化可以大大降低显存,同时提升推理速度。LLM 是典型的访存密集型任务 

        Weight Only 量化:


核心功能——推理引擎 TurboMind
        主要包括四个部分:1. 持续批处理;2. 有状态的推理; 3. Blocked k/v cache; 4. 高性能 cuda kernel。

1. 持续批处理

2. 有状态的推理
3. Blocked K/V Cache

4. Cuda Kernel (算子融合可以有效减少访存次数)

核心功能-推理服务 api server如图所示:


 

http://www.dtcms.com/a/7644.html

相关文章:

  • 科技云报道:金融大模型落地,还需跨越几重山?
  • 【Docker】Dockerfile 指令详解
  • 灰度图像的自动阈值分割
  • 数学建模--比赛
  • 【MySQL】MySQL 8.0 状态变量(Server Status Variables)以及SHOW STATUS命令
  • 瑞_数据结构与算法_二叉树
  • java SSM园林绿化管理系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计
  • 【MySQL安装】附软件下载:压缩包版+docker安装
  • 双指针算法专题
  • What is `StringEscapeUtils.escapeHtml4` does?
  • 【明道云】学习笔记1-了解APaaS
  • 数据结构·顺序表应用
  • Golang 中的反射,并用来获取数据类型
  • 如何将想要执行的代码和Spring Boot 项目的启动类一起执行(ES为例)
  • 【高危】Apache Solr 环境变量信息泄漏漏洞
  • 37-WEB漏洞-反序列化之PHPJAVA全解(上)
  • 【刷题笔记4】
  • IOT pwn
  • Redis 笔记一
  • 数据分析实战:城市房价分析
  • 从浅入深讲解Java继承
  • ctfshow-反序列化(web267-web270)
  • 用的到的linux-Day1
  • 100天精通Python(实用脚本篇)——第113天:基于Tesseract-OCR实现OCR图片文字识别实战
  • 如何发布自己的npm包
  • C语言算法赛——蓝桥杯(省赛试题)
  • 基于SpringBoot Vue高校失物招领系统
  • Docker consul
  • Flink(十四)【Flink SQL(中)查询】
  • How to disagree with ideas