『大模型笔记』第3篇:多长的 Prompt 会阻塞其他请求?优化策略解析
『大模型笔记』多长的 Prompt 会阻塞其他请求?优化策略解析 |
文章目录
- 一、更简单的问题:长 Prompt 阻塞请求队列
- 1. 请求并行预填方案(Request-Parallel Prefills)
- 二、根本的问题(Fundamental Flaw):Token 生成被并行预填拖慢
- 1. 解耦预填(Disaggregated Prefill):以延迟优化为目标
- 三. 参考文献
系列文章,目录如下:
- 第0篇:『大模型笔记』基于Transformer的生成式模型分布式服务系统
- 第1篇:『大模型笔记』高效请求排队:优化大语言模型(LLM)性能
- 第2篇:『大模型笔记』并发请求中的 Prefill 与 Decod