当前位置: 首页 > news >正文

【vLLM 学习】Load Sharded State

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/

*在线运行 vLLM 入门教程:零基础分步指南

源码 examples/offline_inference/load_sharded_state.py.

# SPDX-License-Identifier: Apache-2.0
"""
Validates the loading of a model saved with the sharded_state format.
This script demonstrates how to load a model that was previously saved
using save_sharded_state.py and validates it by running inference.
Example usage:
(First need to save a sharded_state mode)python save_sharded_state.py \--model /path/to/load \--quantization deepspeedfp \--tensor-parallel-size 8 \--output /path/to/save/sharded/modelepython load_sharded_state.py \--model /path/to/saved/sharded/model \--load-format sharded_state \--quantization deepspeedfp \--tensor-parallel-size 8 \--prompt "Hello, my name is" \--max-tokens 50
"""import dataclassesfrom vllm import LLM, EngineArgs, SamplingParams
from vllm.utils import FlexibleArgumentParserdef parse_args():parser = FlexibleArgumentParser()# Add engine argumentsEngineArgs.add_cli_args(parser)# Override default load_format for clarityparser.set_defaults(load_format="sharded_state")# Add validation argumentsparser.add_argument("--prompt",type=str,default="Hello, world!",help="Prompt for validation")parser.add_argument("--max-tokens",type=int,default=100,help="Maximum number of tokens to generate")parser.add_argument("--temperature",type=float,default=0.7,help="Sampling temperature")parser.add_argument("--top-p",type=float,default=1.0,help="Top-p sampling parameter")return parser.parse_args()def main():args = parse_args()engine_args = EngineArgs.from_cli_args(args)print(f"Loading model from {engine_args.model} "f"using format {engine_args.load_format}")print(f"Tensor parallel size: {engine_args.tensor_parallel_size}")# Load the model using engine argsllm = LLM(**dataclasses.asdict(engine_args))# Prepare sampling parameterssampling_params = SamplingParams(temperature=args.temperature,top_p=args.top_p,max_tokens=args.max_tokens,)print("\nRunning inference:")print(f"Prompt: {args.prompt}")# Generate completionoutputs = llm.generate(args.prompt, sampling_params)# Display generated textprint("\nGenerated outputs:")for output in outputs:generated_text = output.outputs[0].textprint("-" * 50)print(f"Full output: {args.prompt}{generated_text}")print("-" * 50)if __name__ == "__main__":main()
http://www.dtcms.com/a/321725.html

相关文章:

  • VB网际探针:零依赖轻量爬虫实战
  • GPT-5 is here
  • STM32 输入捕获,串口打印,定时器,中断综合运用
  • centos系统配置防火墙
  • DDR-怎么计算存储空间-什么是预取(Pre-fetch)
  • 【世纪龙科技】汽车车身测量虚拟实训软件-虚境精测全维赋能
  • 应急响应流程
  • vue2-scoped关键字、组件通信
  • Qwen-Image擅长文字渲染的创作利器
  • 用 Go 写个极简反向代理,把 CC 攻击挡在业务容器之外
  • 深入浅出:掌握银河麒麟桌面操作系统的防火墙管理艺术
  • 3- Python 网络爬虫 — 如何抓取动态加载数据?Ajax 原理与实战全解析
  • Redis:集群(Cluster)
  • eNSP 模拟器安装教程
  • 深入理解模板方法模式:框架设计的“骨架”艺术
  • [激光原理与应用-180]:测量仪器 - 频谱型 - 干涉仪的定义、功能、原理、组成
  • 目标检测数据集 - 番茄叶病虫害检测数据集下载「包含VOC、COCO、YOLO三种格式
  • LeetCode盛最多水的容器
  • 线程死锁相关知识点
  • Pygame音频播放的最简框架代码示例
  • C#中LINQ to DataSet操作及DataTable与LINQ相互转换
  • 【问题解决】Mysql连接报错:1130-host ... is not allowed to connect to this MySql server
  • 快速入门flask应用(从入门到实战)
  • CPO-SVM分类预测+特征贡献SHAP分析,通过特征贡献分析增强模型透明度,Matlab代码实现,引入SHAP方法打破黑箱限制,提供全局及局部双重解释视角
  • Uber的MySQL实践(一)——学习笔记
  • Xiphos Q8 SDR DOCK子板 AD9361 宽带收发器的 SDR 模块。
  • 【AI论文】高效智能体:在降低成本的同时构建高效能智能体
  • latex基础
  • GPT-5 不仅是版本升级,它标志着 推理能力的商业化 和 Agent操作系统 的崛起,开启了 AI革命时代。
  • 二、RuoYi-Cloud-Plus 拉取到本地的准备和注意事项