当前位置: 首页 > news >正文

大模型推理框架简介

概述

通常需要大量的计算资源,高效运行LLMs仍然是一个挑战,

推理框架作为LLM高效部署的关键组件,直接关系到应用的性能、成本和开发效率。

高性能框架

vLLM

GitHub,由SKYPILOT构建的推理优化框架,旨在提高在GPU上运行的LLM的效率。

核心优势:

  • PagedAttention技术:突破传统KV缓存机制,结合动态批处理和异步调度机制,实现显存分页管理,支持超长序列生成(如10万token对话);
  • 吞吐量领先:在A100 GPU上可达传统框架3倍以上吞吐量,支持动态批处理;
  • 量化优化支持:内置GPTQ、AWQ等量化技术,有效压缩模型体积,进一步提升GPU资源利用率;
  • 多GPU分布式部署:支持在多卡GPU集群上运行,即便面对千亿参数级模型,也能在低延迟下稳定处理海量并发请求;
  • 生态兼容性:原生支持HF模型格式,兼容PyTorch生态。

优势与局限

  • 优势:适用于高并发在线服务,如金融交易、智能客服和文档处理;低首次响应时间(TTFT)表现出色;
  • 局限:依赖高端NVIDIA GPU(如 A100、H100,H20),硬件投入成本较高;代码架构较复杂,对定制开发和维护要求较高。

适用场景

  • 互联网大厂API服务(如OpenAI兼容接口)
  • 高并发在线推理(1000+ QPS)
  • 长文本生成场景(法律文书生成、代码补全)
# Run the container with GPU support
docker run -it \--runtime nvidia \--gpus all \--network="host" \--ipc=host \-v ./models:/vllm-workspace/models \-v ./config:/vllm-workspace/config \vllm/vllm-openai:latest \--model models/Qwen2.5-14B-Instruct/Qwen2.5-14B-Instruct-Q4_K_M.gguf \--tokenizer Qwen/Qwen2.5-14B-Instruct \--host "0.0.0.0" \--port 5000 \--gpu-memory-utilization 1.0 \--served-model-name "VLLMQwen2.5-14B" \--max-num-batched-tokens 24576 \--max-num-seqs 256 \--max-model-len 8192 \--generation-config config

测试:

import requests
import concurrent.futuresBASE_URL = "http://<your_vLLM_server_ip>:5000/v1"
API_TOKEN = "sk-1234"
MODEL = "VLLMQwen2.5-14B"def create_request_body():return {"model": MODEL,"messages": [{"role": "user", "content": "Tell me a story of 1000 words."}]}def make_request(request_body):headers = {"Authorization": f"Bearer {API_TOKEN}","Content-Type": "application/json"}response = requests.post(f"{BASE_URL}/chat/completions", json=request_body, headers=headers, verify=False)return response.json()def parallel_requests(num_requests):request_body = create_request_body()with concurrent.futures.ThreadPoolExecutor(max_workers=num_requests) as executor:futures = [executor.submit(make_request, request_body) for _ in range(num_requests)]results = [future.result() for future in concurrent.futures.as_completed(futures)]return resultsif __name__ == "__main__":num_requests = 50  # Example: Set the number of parallel requestsresponses = parallel_requests(num_requests)for i, response in enumerate(responses):print(f"Response {i+1}: {response}")

SGLang

GitHub,提供前端语言,让你能用更简洁、更符合逻辑的方式去编排复杂的生成任务,比如结构化数据提取、多轮对话管理、函数调用、带约束的生成等等。提供后端引擎(比如RadixAttention)也吸取类似PagedAttention精髓,并针对这种前端语言定义的复杂控制流加以协同优化。

技术特点

  • RadixAttention:通过共享前缀请求和高效缓存策略,SGLang能在理论上实现十万级token/s的超高吞吐量,同时显著降低响应延迟;
  • 分布式调度:支持跨节点自动负载均衡;
  • 高效结构化输出:内置高性能JSON解析模块,便于构建面向结构化数据查询的API服务,适合复杂自动化工作流;
  • 轻量模块化架构:采用灵活的模块化设计,便于快速集成新技术(如FlashInfer内核),不断优化推理效率;
  • 混合精度计算:FP16与FP32智能切换

适用领域

  • 多模态模型推理(文本+图像)
  • 复杂工作流编排(RAG增强生成)
  • 科研机构超大规模模型实验

优势与局限

  • 优势:适用于大批量结构化查询和实时响应要求极高的应用;在高并发场景下表现出色。
  • 局限:当前版本仅支持Linux平台,跨平台兼容性待提升;对多模态任务支持较弱,生态尚在起步阶段。

vLLM和SGLang

区别:

  1. 核心出发点不同
    vLLM:算力压榨机。出发点是极致优化推理引擎的性能和内存效率,解决KV Cache问题。一切为了吞吐量和低延迟。
    SGLang:生成控制大师。出发点是如何更灵活、更高效地控制LLM的生成过程,同时保持高性能。
  2. 提供的价值层面不同
    vLLM:主要在Runtime/Engine层面发力。给的是一个高性能的底层库,你调API就行,但复杂的生成逻辑你还得自己在外面封装。
    SGLang:提供的是Language + Runtime的组合。不仅优化Runtime,还提供一种新的、专门用于控制生成流程的编程语言DSL (Domain-Specific Language),大大降低实现复杂生成策略的门槛。
  3. 解决的问题侧重不同
    vLLM:主要解决高并发、变长序列下的推理效率问题。特别适合那些需要大规模部署、处理海量请求的标准生成场景。
    SGLang:主要解决复杂生成任务的编程复杂性和执行效率问题。特别适合需要精细控制生成内容、实现高级 Agent 逻辑、做 RAG 中复杂检索与生成协同、或者需要模型输出严格遵守某种格式的场景。它的 Vision Language Model 支持也是一个亮点。
  4. 抽象层次不同
    vLLM:更底层,关注Attention机制和内存管理优化。
    SGLang:更高层,引入控制流概念,并将其与底层优化结合。目标是如何让开发者更爽地调用LLM完成复杂任务。

LMDeploy

GitHub。

技术特点

  • 国产GPU深度适配:针对华为昇腾等国产GPU进行专门优化,充分发挥硬件优势,显著提升推理效率与显存利用率;
  • 多模态融合支持:在视觉-语言混合模型上具备明显优势,能同时处理图像和文本数据,满足复杂业务场景需求;
  • Turbomind引擎:采用异步流水线并行,延迟降低至50ms级别;
  • 量化部署工具链:支持W4A16量化,模型体积压缩4倍;
  • 动态批处理:智能合并不同长度请求,GPU利用率达90%+。

优势与局限

  • 优势:在国产硬件环境下成本优势明显,适合政府、企业级定制化部署;多模态支持能力强;
  • 局限:更新迭代速度较慢;分布式部署和高并发处理能力有待进一步提升。

适用于国内企业和政府机构在国产 GPU 平台上的大模型部署,特别是多模态交互和视觉语言任务领域。

典型应用

  • 金融实时风控系统
  • 游戏NPC智能对话
  • 工业质检实时报告生成

TGI

Text Generation Inference,HuggingFace开源组件,GitHub。

技术特点

  • 生态系统成熟稳定:作为HF Inference API核心组件,在云端推理服务中已被广泛验证;
  • 标准化API接口:提供RESTful API与OpenAI兼容接口,支持连续批处理和流式输出,便于与现有应用无缝集成;
  • 服务稳定性:内置健康检查、自动故障转移
  • 多GPU扩展:支持Tensor并行和流水线并行
  • 安全合规:符合GDPR和HIPAA标准

优势与局限

  • 优势:文档丰富、生态成熟,易于集成和扩展;适合大规模云端部署和API推理;
  • 局限:在极端高并发场景下,定制化优化能力可能略逊于专用解决方案;部分高级功能依赖云端服务。

部署案例

  • AWS SageMaker推理服务
  • 银行智能客服系统
  • 医疗报告自动生成平台

DeepSeek AI Open Infra Index

底层优化套件

  • FlashMLA:基于CUDA的矩阵运算加速库,提升30%计算效率
  • DeepEP:弹性并行框架,支持动态资源分配
  • 智能缓存:自适应数据预取策略

协同生态

  • 与vLLM结合实现显存利用率提升40%
  • 与SGLang集成优化分布式任务调度

本地部署与轻量化框架

框架核心特性硬件要求典型应用场景
Ollama一键部署/Web界面消费级GPU(6GB+)个人知识管理/快速原型验证
Llama.cppGGUF格式支持/纯CPU推理树莓派4B工业边缘设备/隐私计算盒子
LocalAI本地化数据隔离/端到端加密服务器CPU集群政务系统/医疗数据解析
KTransformers能效比优化(<5W)ARM架构芯片物联网设备/车载语音助手
GPT4ALL图形化模型市场/零代码部署Mac M系列芯片教育机构/非技术用户实验

Llama.cpp

GitHub,

技术特点

  • 纯CPU推理:完全基于CPU实现,无需高性能GPU,适合在嵌入式设备、边缘计算及资源受限环境下运行;
  • 轻量级与开源:架构简单、易于部署,社区活跃,用户可以根据需求自行定制和优化推理过程。

优势与局限

  • 优势:零硬件门槛,成本极低;适合边缘设备和低负载任务;开源生态丰富,便于快速迭代;
  • 局限:与GPU加速方案相比,推理速度较慢,不适合大规模在线服务;高并发处理能力有限。

适用于边缘计算、物联网和低负载场景,为无GPU环境下的基本推理需求提供可行方案。

Ollama

GitHub,
一个本地LLM运行时,可简化部署和使用开源模型。对于希望在个人机器上试验模型的开发人员来说,Ollama是一个绝佳选择。提供能力:

  • 跨平台一键安装:Ollama 支持 Windows、macOS 与 Linux 平台,提供直观的用户界面,降低使用门槛。
  • 预打包模型:内置超过 1700 款预训练模型,默认提供 int4 量化处理后的权重,大幅降低显存需求,使普通消费级硬件也能流畅运行。如LLaMA、Mistral和Falcon;
  • 优化的CPU和GPU推理:用于在日常硬件上运行模型;
  • 离线推理保障:支持完全离线运行,确保数据安全与隐私,适合对本地数据保护有高要求的应用;
  • 封装llama.cpp:在llama.cpp的基础上提供更高层次抽象,使模型调用与管理更加简单便捷。
  • 简单的API和CLI:允许开发人员以最少的配置启动LLM。

优势与局限

  • 优势:操作简单、易上手,适合个人开发者、学生和快速原型验证;低硬件资源要求及离线数据安全;
  • 局限:在高并发场景下,响应性能可能存在瓶颈;扩展性和插件定制能力较弱,不适合大规模在线部署。

配置文件:

[Unit]
Description=Ollama Service
After=network-online.target[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=/home/henry/.local/bin:/usr/local/cuda/bin/:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_DEBUG=1"
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OPENAI_BASE_URL=http://0.0.0.0:11434/api"[Install]
WantedBy=multi-user.target

vLLM和Ollama

对比项vLLMOllama
推理速度非常快快,但依赖于部署的硬件
内存效率非常高尚可,受限于硬件
可扩展性可大规模部署到企业级云服务器本地小规模部署
安装便捷性麻烦,需Python和CUDA环境;提供更多定制选项一行代码,易于安装;简单,可快速实验LLM;
API支持PyTorch、TensorFlow,REST APICLI和API
适用场景企业级应用,高端GPU,微调和运行自定义模型,超长上下文窗口无需复杂设置,边缘计算,使用简单API,试验模型
适用人群需要深度定制的开发人员初学者,快速原型设计、测试想法
生产就绪性为生产环境而设计本地部署和验证
安全支持APIKEY授权-
文档提供全面的技术文档文档简单且适合初学者,但缺乏技术深度,特别是在性能和并行处理方面

KTransformers

清华大学KVCache.AI团队与趋境科技开源项目,地址GitHub。旨在通过先进的内核优化、设备放置及并行策略,为Transformers体验提供增强支持。其核心设计强调可扩展性;用户仅需一行代码即可实现并注入优化模块,便可获得与Transformers兼容的接口。核心之一在于应用异构计算策略,利用DeepSeek混合专家架构(MoE)的稀疏性和计算复杂度低的特点,将MoE部分放在内存并由CPU完成计算,而计算复杂度较高但相对更省显存的MLA部分继续留在GPU显存并由GPU完成计算,大幅降低显存需求。

此外,采用4bit量化技术和Marlin GPU算子配合,也使得推理效率得到显著提升,推理速度提高近四倍。CUDA Graph加速技术通过优化CPU/GPU的通信效率,显著减少延迟和资源消耗。

特性:

  • 显存砍到十分之一,性能反升28倍
    DeepSeek-R1作为全球顶尖的MoE架构模型,原本需要8卡A100才能勉强运行,而KTransformers通过异构计算划分策略,将稀疏MoE矩阵卸载到CPU内存,仅保留稠密部分在GPU显存中。配合4bit量化和Marlin算子优化,显存需求从200GB+骤降至24GB,同时预处理速度飙升至286 tokens/s,生成速度达14 tokens/s,比传统方案(如llama.cpp)快28倍。
  • 专家卸载:榨干硬件每一滴算力
    团队独创的计算强度导向卸载策略,将高计算强度的算子(如MLA注意力核心)优先分配至GPU,低强度部分(如稀疏专家模块)转移至CPU。通过llamafile高速CPU算子和CUDA Graph加速,CPU与GPU协同作战,彻底释放异构计算潜力,连老旧的3090显卡都能跑出9.1 tokens/s的生成速度。
  • 一键兼容,小白也能玩转千亿模型
    KTransformers不仅提供HF无缝接口和ChatGPT式Web界面,还支持通过YAML配置文件灵活切换量化策略与优化内核。开发者甚至能直接用Windows系统部署,搭配200GB内存的消费级设备即可体验千亿模型的魅力。

核心技术:

  • 稀疏性革命:MoE架构的稀疏特性被发挥到极致,每次推理仅激活部分专家模块,结合CPU/GPU协同计算,显存占用大幅降低;
  • 量化黑科技:4bit量化下,模型精度损失微乎其微,但显存占用压缩至原版的1/4。通过Marlin算子优化,GPU计算效率提升3.87倍,彻底告别量化即减速的魔咒;
  • 长文本秒级响应:针对万级Token的上下文任务(如代码分析),KTransformers的Intel AMX指令集优化让CPU预填充速度冲上286 tokens/s,从分钟级等待跃进至秒级响应。

灵活部署框架

XInference

核心能力

  • 多模型并行服务(同时加载10+模型)
  • 动态扩缩容:根据负载自动调整实例数
  • 兼容性:100% OpenAI API协议支持

推荐场景

  • 中小型企业多模型服务中台
  • 科研机构对比实验平台

OpenLLM

技术优势

  • 异构硬件支持(TPU/GPU/CPU混合部署)
  • 自定义适配器(LoRA插件热加载)
  • 服务监控:Prometheus集成

典型用户

  • 云服务提供商(混合云部署)
  • 自动驾驶模型服务集群

HF Transformers

生态优势

  • 支持模型数量:20w+
  • 社区贡献机制:日均更新50+模型
  • 部署方式:支持Triton/ONNX Runtime

首选场景

  • 学术研究快速实验
  • 创业公司MVP开发

LiteLLM

统一接口方案

  • 支持模型:30+主流LLM
  • 流量控制:智能路由与负载均衡
  • 成本监控:按token计费分析

适用对象

  • 多模型SaaS平台
  • 企业混合云成本优化

TensorRT-LLM

GitHub,

技术特点

  • 深度链路优化:借助NVIDIA TensorRT,对大模型进行全链路优化,确保在推理过程中极低延迟和超高吞吐量;
  • 量化与预编译支持:通过预编译和多种量化方案(如FP8/INT4),最大化利用NVIDIA GPU的计算潜力,进一步提升性能。

优势与局限

  • 优势:在NVIDIA GPU环境下表现出色,极大缩短响应时间,适合对推理速度要求苛刻的生产级应用;
  • 局限:预编译过程可能会带来冷启动延迟;仅限于NVIDIA CUDA平台,跨平台部署存在局限。

MLC-LLM

GitHub,

技术特点

  • 基于Apache TVM的编译优化:MLC-LLM利用ML编译技术对大模型进行全链路优化,有效降低TTFT,为快速原型验证提供支持;
  • 实验性与前沿探索:在低并发场景下表现优异,展示编译优化技术在推理领域的巨大潜力。

优势与局限

  • 优势:在小规模、低延迟需求场景中表现突出,适合研发初期和实验性应用;
  • 局限:当前版本多为nightly构建,稳定性和文档支持仍有待完善;部署流程相对复杂,对编译与配置要求较高。

选型

需综合考虑,吞吐量需求、硬件预算、合规要求和技术栈适配性。建议通过压力测试验证框架在实际业务场景中的表现,同时关注社区活跃度(GitHub Star增长趋势)和商业支持选项。

平台/引擎核心技术/亮点优势局限适用场景
vLLMPagedAttention、动态批处理、异步调度、多GPU分布式高并发、低延迟,适合大规模在线服务依赖高端GPU、代码复杂,二次开发门槛较高
Ollama基于llama.cpp封装,跨平台支持、内置1700+ 模型、int4量化安装便捷、易上手、低硬件要求、数据离线保障并发处理能力较弱,扩展性和插件定制能力有限
SGLangRadixAttention、高效缓存、结构化输出、轻量模块化架构超高吞吐量、极低响应延迟、适合高并发结构化查询目前仅支持Linux、对多模态任务支持能力有限
LMDeploy国产GPU深度适配、显存优化、多模态融合支持在国产硬件上性能优异、成本优势明显,适合多模态复杂场景更新迭代较慢、分布式部署和高并发处理能力待加强
Llama.cpp纯CPU推理、轻量级设计、开源社区支持零硬件门槛、低成本、适合边缘和嵌入式设备推理速度较慢,高并发能力有限
TensorRT-LLM基于NVIDIA TensorRT深度优化、量化与预编译支持极低延迟、高吞吐量、充分发挥NVIDIA GPU优势预编译过程可能带来冷启动延迟,仅限 NVIDIA CUDA平台
Hugging Face TGI生产级推理服务、标准化REST API、OpenAI兼容接口生态成熟、稳定可靠、易于云端集成高并发定制化优化能力稍弱,部分功能依赖云端服务
MLC-LLM基于Apache TVM的编译优化、低TTFT、实验性原型验证在低并发、低延迟场景下表现突出,展示编译优化潜力当前版本稳定性待提高,部署流程较复杂

综合建议

  • 企业级高并发应用:对于对延迟与吞吐量要求极高的场景,推荐选择vLLM、TensorRT-LLM或HuggingFace TGI,它们在多GPU部署和低延迟响应方面表现尤为突出。
  • 个人开发与本地原型:Ollama凭借其跨平台、易上手的特性,非常适合个人原型验证和离线本地部署,而Llama.cpp则满足无GPU环境下的基本推理需求;
  • 国产硬件部署:LMDeploy针对国产GPU进行深度优化,具备多模态处理优势,适合国内企业和政府机构在特定硬件环境下部署;
  • 新兴技术探索:SGLang与MLC-LLM分别在高吞吐量和编译优化上展示了前沿技术潜力,虽然当前还存在一定局限,但未来发展前景值得期待。

随着硬件升级、算法革新和产业生态不断完善,大模型推理技术正朝着以下方向发展:

  • 跨平台与异构计算:未来推理引擎将支持CPU、GPU及专用AI芯片的无缝切换,构建更加灵活的部署体系;
  • 模块化与智能调度:通过模块化设计和智能调度,用户可根据业务需求自定义优化策略,实现更高效的资源利用;
  • 多模态与融合能力:在视觉、语音、文本等多模态数据处理方面,推理平台将不断完善跨模态融合技术,提供全方位智能服务;
  • 开源生态与产业协作:开源社区的活跃和产业界的深度合作,将推动标准化接口、数据安全和高效部署方面的持续优化,为AI应用提供坚实技术支撑。

选型决策树

供参考

边缘设备
本地服务器
混合云
需求分析
是否需要企业级SLA?
选择TGI或LMDeploy
部署环境限制?
Llama.cpp/KTransformers
Ollama/LocalAI
XInference/OpenLLM
是否需要多模型支持?
LiteLLM/HuggingFace
专注单一框架优化

参考

  • 灵活可配的CPU/GPU异构大模型推理策略 - KTransformers

相关文章:

  • 微前端qiankun动态路由权限设计与数据通信方案
  • 反常积分(广义积分)
  • 机器学习模型训练模块技术文档
  • XZ03_Overleaf使用教程
  • 名词解释DCDC
  • Wannier90文件与参数
  • Three.js + React 实战系列 - 项目展示区开发详解 Projects 组件(3D 模型 + 动效 + 状态切换)✨
  • DeepSeek技术发展详细时间轴与技术核心解析
  • 【KWDB 创作者计划】基于 ESP32 + KWDB 的智能环境监测系统实战
  • 人工智能浪潮中Python的核心作用与重要地位
  • DeepSeek成本控制的三重奏
  • 学习路线(工业自动化软件架构)
  • 【将你的IDAPython插件迁移到IDA 9.x:核心API变更与升级指南】
  • suna工具调用可视化界面实现原理分析(一)
  • 2025系统架构师---论面向对象的软件设计
  • S100平台调试RS485/RS232
  • JavaSE笔记--反射篇
  • 位运算-详细总结
  • 前端-Vue的项目流程
  • 【Unity】一个AssetBundle热更新的使用小例子
  • 禅定佛的微笑,从樊锦诗提到过的那尊说起
  • 巴菲特掌舵伯克希尔60年后将卸任CEO,库克:认识他是人生中最珍贵的经历之一
  • 五问舆论漩涡中的“协和‘4+4’模式”:是否公平,如何合格?
  • 浙江“胖都来”开业多位明星祝贺,“胖东来”称已取证投诉,律师:碰瓷侵权
  • 对华小额包裹免税取消=更高价格+更慢物流,美消费者为关税政策买单
  • 巴菲特股东大会前瞻:执掌伯克希尔60年,巨轮将驶向何方