当前位置：首页 > news >正文

SGLang简介

news 2025/9/12 5:36:26

简单来说，SGLang 是一个用于编写和优化与大语言模型（LLMs）交互程序的框架和领域特定语言（DSL）。它的核心目标是让 LLM 的推理过程跑得更快，同时让复杂的提示词（Prompt）逻辑写起来更简单。

你可以把它想象成 LLM 世界的 “高性能编程语言” 或 “智能缓存系统”。就像为数据库设计 SQL 语言来高效查询一样，SGLang 是为高效“查询”LLM 而设计的。

核心概念详解

1. 它是什么？

SLLang 由 UC 伯克利等机构的研究人员开发，它包含两个部分：

一个前端（Frontend）：一套 Python API 或 DSL，让你能用更直观、更简洁的方式来表达复杂的、嵌套的提示词逻辑（例如，多轮对话、分支、循环等）。
一个运行时（Runtime）：一个高性能的后端执行引擎，它通过一系列优化技术（如RadixAttention）来加速这些复杂提示词的执行。

2. 它解决的核心问题

当人们用原生代码（如直接调用 OpenAI API 或 Hugging Face 的 transformers 库）运行复杂的 LLM 流程时，会遇到两个痛点：

开发效率低：提示词往往很长且结构复杂（包含系统提示、少样本示例、用户输入、模型回复等）。用字符串拼接或 f-string 来管理它们非常笨拙，容易出错，可读性差。
运行效率低：很多复杂提示词之间存在共享前缀。例如，在同一个应用程序中，不同的请求可能使用相同的系统提示和少样本示例，只有用户输入不同。传统的运行方式会重复处理这些相同的前缀 tokens，造成巨大的计算浪费，导致延迟增加、吞吐量降低。

3. SGLang 的杀手锏：RadixAttention

类似于 vLLM 的 PagedAttention，SGLang 的性能飞跃也来自于其核心技术—— RadixAttention。

它是什么：一个在运行时内部自动缓存和复用提示词前缀的智能系统。
如何工作：
1. SGLang 运行时会在内存中维护一个前缀缓存树（Prefix Cache Tree） 或** Radix 树**。
2. 当处理一个新的请求时，运行时会先检查其提示词前缀（例如，系统提示和少样本示例部分）是否已经存在于缓存树中。
3. 如果存在，它会直接复用已经计算好的该前缀的 KV Cache（键值缓存），跳过所有重复的计算。只需为变化的部分（如用户输入）进行计算。
带来的好处：
- 极大降低延迟：避免了重复计算，请求的响应速度更快。
- 显著提升吞吐量：GPU 不再做无用功，可以同时处理更多请求。

主要功能和特点

直观的编程接口：提供了类似 Python 装饰器 (@sgl.function) 和流畅的链式调用语法，让编写复杂提示词逻辑像写结构化代码一样简单。
高性能后端：内置了 RadixAttention、高效内存管理等优化，性能远超原生实现。
与现有生态无缝集成：支持多种后端推理引擎，包括：
- vLLM (推荐，强强联合)
- OpenAI API
- Hugging Face TGI (Text Generation Inference)
- 以及其他本地模型（通过 Hugging Face transformers）
支持复杂控制流：原生支持分支（if-else）、循环（for）、并行（parallel）等控制结构，使得编写多步推理、智能体（Agent）、投票等复杂逻辑变得非常容易。

一个简单的代码例子

假设我们想创建一个有多轮对话能力的聊天机器人，并有一个固定的系统提示。

传统方式（字符串拼接，低效）：

system_prompt = "You are a helpful assistant."
conversation_history = [{"role": "user", "content": "Hi!"}, {"role": "assistant", "content": "Hello!"}]
new_user_input = "What's the weather today?"# 笨拙地拼接整个对话历史
full_prompt = system_prompt
for msg in conversation_history:full_prompt += f"\n{msg['role']}: {msg['content']}"
full_prompt += f"\nuser: {new_user_input}\nassistant:"# 发送给模型，每次都要重复处理 system_prompt 和整个 conversation_history
response = llm.generate(full_prompt)

使用 SGLang（高效且优雅）：

import sglang as sgl@sgl.function
def multi_turn_chat(s, system_prompt, history, new_input):s += system_prompt + "\n" # 系统提示只会被计算和缓存一次for item in history:s += f"{item['role']}: {item['content']}\n"s += f"user: {new_input}\n"s += "assistant:" + sgl.gen("response") # 从这里开始生成# 运行函数
ret = multi_turn_chat.run(system_prompt="You are a helpful assistant.",history=[{"role": "user", "content": "Hi!"}, {"role": "assistant", "content": "Hello!"}],new_input="What's the weather today?"
)print(ret["response"]) # 获取模型生成的内容

SGLang 的运行时会自动识别并缓存 system_prompt 和 history 部分。当用户输入 new_input 变化时，只有最后一部分需要重新处理，前面缓存的部分直接复用，速度极快。

与 vLLM 和 Ollama 的关系与区别

这是一个非常好的问题，因为它们都致力于提升 LLM 的效率，但侧重点不同：

特性	SGLang	vLLM	Ollama
核心角色	“编程语言 & 智能调度器”	“内存管理大师”	“桌面应用商店”
解决痛点	提示词编程复杂、前缀重复计算	KV Cache内存浪费、并发低	模型部署复杂、隐私性
关键技术	RadixAttention (前缀缓存)	PagedAttention (内存分页)	简化部署、模型管理
最佳应用场景	复杂提示词逻辑（Agent、多步推理、评测）	高并发API服务	本地桌面端体验
协作关系	可以建立在 vLLM 之上！SGLang 是前端编程框架，vLLM 是后端推理引擎。它们是最佳拍档，结合后能实现 1+1 > 2 的效果。	提供底层推理能力	提供易用的本地运行环境