当前位置: 首页 > news >正文

大模型实战营Day5笔记

大模型部署背景
        大模型部署是指将训练好的模型在特定的软硬件环境中启动的过程,使模型能够接收输入并返回预测结果。大模型的内存开销巨大,7B模型仅权重需要14G内存。另外大模型是自回归生成,需要缓存Attention的 k/v。

LMDeploy 简介如下:


推理性能如图所示:


核心功能-量化
        量化可以大大降低显存,同时提升推理速度。LLM 是典型的访存密集型任务 

        Weight Only 量化:


核心功能——推理引擎 TurboMind
        主要包括四个部分:1. 持续批处理;2. 有状态的推理; 3. Blocked k/v cache; 4. 高性能 cuda kernel。

1. 持续批处理

2. 有状态的推理
3. Blocked K/V Cache

4. Cuda Kernel (算子融合可以有效减少访存次数)

核心功能-推理服务 api server如图所示:


 

相关文章:

  • 科技云报道:金融大模型落地,还需跨越几重山?
  • 【Docker】Dockerfile 指令详解
  • 灰度图像的自动阈值分割
  • 数学建模--比赛
  • 【MySQL】MySQL 8.0 状态变量(Server Status Variables)以及SHOW STATUS命令
  • 瑞_数据结构与算法_二叉树
  • java SSM园林绿化管理系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计
  • 【MySQL安装】附软件下载:压缩包版+docker安装
  • 双指针算法专题
  • What is `StringEscapeUtils.escapeHtml4` does?
  • 【明道云】学习笔记1-了解APaaS
  • 数据结构·顺序表应用
  • Golang 中的反射,并用来获取数据类型
  • 如何将想要执行的代码和Spring Boot 项目的启动类一起执行(ES为例)
  • 【高危】Apache Solr 环境变量信息泄漏漏洞
  • 37-WEB漏洞-反序列化之PHPJAVA全解(上)
  • 【刷题笔记4】
  • IOT pwn
  • Redis 笔记一
  • 数据分析实战:城市房价分析
  • 京东CEO许冉:外卖日单量接近2000万单,看到外卖对平台拉动和转化效应
  • 牧原股份子公司与养殖户种猪买卖纠纷案一审胜诉
  • 金价大跌!足金饰品每克一夜便宜14元,涨势是否已终结?
  • 退休10年后,70岁成都高新区管委会原巡视员王晋成被查
  • 哈尔滨工业大学原副校长王魁业逝世,享年92岁
  • 上海“世行对标改革”的税务样本:设立全国首个税务审判庭、制定首个税务行政复议简易程序