当前位置: 首页 > news >正文

VLLM历次会议(2024.4)

Prefix Caching。预先算好KV cache,遇见公共前缀,复用之,避免再计算一遍。

场景:1. 多轮对话。2.公共的system prompt。

Guided Decoding(格式化输出)

通过Outlines工具实现。

支持正则表达式、JSON格式等。

输入:

输出:

MoE优化:

Triton grouped GEMM kernel with tuned tile sizes

Marlin

增加Marlin Kernel,INT4 quantization时可加速。

Speculative Decoding

chunked-prefill的好处:

latency可以显著减少。VLLM continous batching是prefill优先。Sarathi-Serve用了chunked-prefill。VLLM后续会做这个。

相关文章:

  • vue2老版本 npm install 安装失败_安装卡主
  • 【PL/SQL】常用操作复习20250212
  • 大型语言模型的核心机制解析
  • 随着人们网络安全意识提高,软件架构设计与评估也成为重中之重
  • 新一代SCADA: 宏集Panorama Suite 2025 正式发布,提供更灵活、符合人体工学且安全的应用体验
  • 【工业安全】-CVE-2019-17621-D-Link Dir-859L 路由器远程代码执行漏洞
  • 美团一面,有点难度。
  • verilog练习:i2c slave 模块设计
  • zyNo.22
  • Ansible内置模块之file
  • 从零搭建:Canal实时数据管道打通MySQL与Elasticsearch
  • 在大型语言模型(LLM)框架内Transformer架构与混合专家(MoE)策略的概念整合
  • 数据结构(5)
  • DeepSeek 的含金量还在上升
  • 2025年3月一区SCI-混沌进化优化算法Chaotic evolution optimization-附Matlab免费代码
  • 《AdaAttN:重新审视任意风格迁移中的注意力机制》学习笔记
  • Win10环境借助DockerDesktop部署大数据时序数据库Apache Druid
  • HCIA项目实践---OSPF的基本配置
  • 15种时间序列预测方法总结(包含多种方法代码实现)
  • github - 使用
  • 古巴外长谴责美国再次将古列为“反恐行动不合作国家”
  • 乌拉圭前总统何塞·穆希卡去世
  • 夜读|尊重生命的棱角
  • 走进“双遗之城”,领略文武风采:沧州何以成文旅新贵
  • 专访|韩国世宗研究所中国研究中心主任:李在明若上台将推行均衡外交
  • 青海规范旅游包车行为:不得引导外省籍旅游包车违规驻地运营