当前位置: 首页 > news >正文

vllm论文中figure3每个块的区别

  1. 请问这个里面的浅黄色 fathers brought 是什么含义?是过去生成的?2. 后面颜色更深的咖啡色 forth 和 是未来会生成,但是现在还没有被使用的意思吗??3. Four score and seven years ago our这个部分是什么?不是生成的而是最开始就有的,是初始的时候就有的吗?有什么更专业的数据可以称呼吗
    在这里插入图片描述
    要理解这个图,我们可以把每个部分拆解为请求的“提示词阶段(Prompt)”、“生成阶段(Generation)” 以及显存浪费的三种类型,具体解释如下:

1. 浅黄色“fathers”“brought”的含义

浅黄色的“fathers”属于请求A当前生成的token,“brought”是请求A上一轮生成的token

  • 图中“1 slot for generated token”标注的“fathers”,是请求A本轮刚生成的token,其KV缓存需要占用1个显存槽位;
  • “brought”是请求A之前生成的token,属于生成阶段中“已经完成但仍需保留用于后续注意力计算”的KV缓存。

2. 深咖啡色“forth”和“”的含义

深咖啡色的“forth”和“”属于为请求A预留的“未来生成token的槽位”,但当前未被使用。

  • 图中“2 slots future used (reserved)”标注的“forth”和“”(是“生成结束”的标记),是系统为请求A预先预留的显存槽位,用于存储未来将要生成的token的KV缓存。这些槽位当前是空的(未被使用),但属于“预留资源”,导致显存被占用却未有效利用(即“内部碎片”的一种)。

3. “Four score and seven years ago our”的含义与专业称呼

“Four score and seven years ago our”属于请求A的“提示词(Prompt)”,是用户输入的初始文本,不是生成阶段产生的。

  • 专业上称为**“提示词KV缓存”**,是LLM在处理用户输入时,对提示词中每个token计算得到的Key和Value向量,需要长期驻留显存以支持后续生成阶段的注意力计算。

补充:三种显存浪费的总结

图中还展示了传统系统中KV缓存管理的三类显存浪费,这也是论文要解决的核心问题:

  • Reserved(预留浪费):如“2 slots future used (reserved)”“1 slot future used (reserved)”,为未来生成预留的槽位当前未被使用,却占用了显存;
  • Internal fragmentation(内部碎片):如“2038 slots never used”“507 slots never used”,为请求分配的连续显存中,有大量槽位实际未被使用(比如请求A实际只需少量槽位,却分配了连续的大段显存);
  • External fragmentation(外部碎片):图中中间的空白区域,是显存中零散的空闲槽位,由于传统系统要求KV缓存连续存储,这些零散空间无法被其他请求利用。

这样拆解后,是不是对传统KV缓存管理的问题和各个模块的含义更清晰了?

http://www.dtcms.com/a/519471.html

相关文章:

  • 西安营销网站建设公司厦门建设局官网
  • 机器视觉的锂电池叠片应用
  • Rhino(犀牛)转换为 3DXML 全指南:迪威模型网在线实操 + 本地方案
  • react报错Cannot find module ‘ajv/dist/compile/codegen‘
  • uv如何配置阿里云源在 pyproject.toml 中 或在 uv.toml 中
  • 【算法】排序算法汇总1
  • 学习笔记 | 图论基础
  • 苏州要服务网站建设视频网站建设多少钱
  • Flink 使用 RocksDB 作为状态后端存储的原因详解
  • 历经一载编程路,褪去青涩踏新程
  • 面试随想录4:吉贝克后端
  • 使用Python操作你的手机(Appium入门)
  • Spire.Doc 实践指南:将Word 文档转换为 XML
  • 【2B篇】阿里通义 Qwen3-VL 新增 2B、32B 两个模型尺寸,手机也能轻松运行
  • 目标检测YOLO实战应用案例100讲-基于多模态和多模型融合 的三维目标检测
  • 【成长纪实】从“Hello World”到分布式实战的进阶之路
  • 图论理论基础(1)
  • 开源 Linux 服务器与中间件(十)Mqtt协议和Emqx服务器安装测试
  • 网站建设实践鉴定手机网站建设讯息
  • 网站管理文档怎么写晚上睡不着看点害羞的东西app
  • uni-app 广告弹窗最佳实践:不扰民、可控制频次、含完整源码
  • 使用eNSP模拟器搭建网络拓扑结构(笔记2):从 0 到 1 掌握华为网络仿真
  • UniApp 多页面编译优化:编译时间从10分钟到1分钟
  • C++变量与函数命名规范技术指南 (基于华为编码规范与现代C++最佳实践)
  • ELK1——elasticsearch
  • 【图像卷积基础】卷积过程卷积实现通道扩充与压缩池化Pooling原理和可视化
  • 杭州公司网站设计外贸手工做兼职的网站
  • 深入浅出Langchain4j——构建Java大语言模型应用的新范式
  • Babylon.js学习之路《添加自定义摇杆控制相机》
  • 【JAVA 进阶】SpringBoot集成Sa-Token权限校验框架深度解析