Qwen3本地化部署,准备工作:SGLang
文章目录
- SGLang
- 安装
- deepseek运行
- Qwen3-30B-A3B
官网:https://github.com/sgl-project/sglang
SGLang
SGLang 是一个面向大语言模型和视觉语言模型的高效服务框架。它通过协同设计后端运行时和前端编程语言,使模型交互更快速且具备更高可控性。核心特性包括:
1. 快速后端运行时
- 高效服务能力:通过基数注意力(RadixAttention)实现前缀缓存、零开销CPU调度器、连续批处理、分页注意力(Token Attention)、推测式解码、张量并行、分块预填充、结构化输出、量化支持(FP8/INT4/AWQ/GPTQ)以及多LoRA批处理。
- 性能优化:支持分布式推理加速和动态内存管理,显著降低延迟。
2. 灵活的前端编程语言
- 直观开发接口:支持链式生成调用、高级提示工程、控制