当前位置: 首页 > news >正文

【vLLM学习笔记】:vLLM 参数说明

vLLM 参数说明

基本用法

python -m vllm.entrypoints.openai.api_server [选项]

模型参数

参数说明默认值
--model使用的 HuggingFace 模型名称或路径facebook/opt-125m
--tokenizer使用的分词器名称或路径
--skip-tokenizer-init跳过分词器初始化
--revision模型版本(分支、标签或commit)
--code-revision模型代码的特定版本
--tokenizer-revision分词器的特定版本
--tokenizer-mode分词器模式(auto/slow)auto
--trust-remote-code信任 HuggingFace 的远程代码
--download-dir模型下载和缓存目录HF默认缓存路径
--load-format模型加载格式(auto/pt/safetensors/npcache等)auto
--dtype模型权重和激活的数据类型(auto/half/float/bfloat16等)auto
--kv-cache-dtypeKV 缓存的数据类型auto
--quantization-param-pathFP8量化时的KV缓存缩放因子JSON路径
--max-model-len模型上下文长度,未指定则自动派生
--guided-decoding-backend引导解码使用的引擎(outlines/lm-format-enforcer)outlines

多GPU与分布式

参数说明默认值
--worker-use-ray使用Ray进行多GPU分布式部署自动启用
--pipeline-parallel-size, -pppipeline并行数量1
--tensor-parallel-size, -tptensor并行数量1
--max-parallel-loading-workers分批加载模型以避免OOM
--ray-workers-use-nsight使用nsight分析Ray进程

性能与内存控制

参数说明默认值
--block-sizeToken块大小(8/16/32)16
--enable-prefix-caching启用prefix缓存
--use-v2-block-manager使用BlockSpaceManagerV2
--num-lookahead-slots用于speculative decoding的预览插槽0
--seed随机种子0
--swap-space每块GPU的CPU交换空间(GiB)4
--gpu-memory-utilizationGPU显存使用比例(0~1)0.9
--num-gpu-blocks-override覆盖GPU块数量(测试用)
--max-num-batched-tokens每轮最大token数量
--max-num-seqs每轮最大序列数量256
--max-logprobs每轮最多返回的logprobs5
--disable-log-stats禁用统计日志

量化与精度

参数说明默认值
--quantization, -q权重量化方法(awq/gptq/fp8等)None
--enforce-eager强制使用eager模式PyTorchFalse
--max-context-len-to-captureCUDA Graph支持的最大上下文长度8192
--disable-custom-all-reduce禁用自定义all-reduce逻辑

分词器线程池配置

参数说明默认值
--tokenizer-pool-size分词器线程池大小,0表示同步0
--tokenizer-pool-type分词器线程池类型(如ray)ray
--tokenizer-pool-extra-config额外配置(JSON格式)

LoRA 相关

参数说明默认值
--enable-lora启用LoRA适配器支持
--max-loras单批次最大LoRA数量1
--max-lora-rankLoRA最大秩16
--lora-extra-vocab-sizeLoRA的额外词表大小256
--lora-dtypeLoRA使用的数据类型auto
--max-cpu-lorasCPU中存储的最大LoRA数量max_num_seqs

硬件与图像支持

参数说明默认值
--device执行设备(auto/cuda/neuron/cpu)auto
--image-input-type图像输入类型(pixel_values/image_features)
--image-token-id图像token的ID
--image-input-shape图像输入最大尺寸
--image-feature-size图像特征的context维度大小

调度与优化

参数说明默认值
--scheduler-delay-factor调度延迟因子0.0
--enable-chunked-prefill启用基于最大token分块的预填充

推测性解码(Speculative Decoding)

参数说明
--speculative-model用于推测的草稿模型名称
--num-speculative-tokens每次推测的token数量
--speculative-max-model-len草稿模型支持的最大长度

其他

参数说明
--model-loader-extra-config模型加载器的额外JSON配置

异步引擎参数

参数说明默认值
--engine-use-ray使用Ray将LLM引擎作为独立进程启动
--disable-log-requests禁用请求日志记录
--max-log-len打印日志的最大prompt字符数或ID数无限

参考:vLLM Engine Arguments

http://www.dtcms.com/a/306749.html

相关文章:

  • 三十四、【Linux常用工具】rsync+inotify实时同步演示
  • rsync+sersync实现文件实时同步
  • 防火墙与入侵检测
  • 聊聊如何判断发现的缺陷属于前后端
  • 一洽客服系统:Web路由策略
  • LSM树Python实现深度解析:从理论到实战的全方位探索
  • Chroma安装教程
  • PCB学习笔记(一)
  • Python 程序设计讲义(42):组合数据类型——元组类型:创建元组
  • AI Agent管理后台原型设计全拆解(附3套可复用素材)
  • 达梦(DM8)常用管理SQL命令(1)
  • python可视化:按序号展示社团星级分布 - 热力图样式
  • Vulnhub靶场:ica1
  • VUE -- 基础知识讲解(二)
  • 《Java 程序设计》第 11 章 - 泛型与集合
  • 迪丽热巴写真壁纸
  • 【38】WinForm入门到精通 ——WinForm平台为AnyCPU 无法切换为x64,也无法添加 x64及其他平台
  • Apache Ignite 中如何配置和启用各类监控指标
  • 还在使用Milvus向量库?2025-AI智能体选型架构防坑指南
  • 【dify+milvus避坑指南】将向量库milvus集成给dify作为知识库
  • 基于深度学习的医学图像分析:使用DeepLabv3+实现医学图像分割
  • (LeetCode 每日一题) 2419. 按位与最大的最长子数组(数组)
  • leetcode 2419. 按位与最大的最长子数组 中等
  • 构建全球化:OMS系统赋能业财与订单一体化
  • linux更新内核启动镜像文件命令(sudo update-initramfs -u)的作用
  • 如何本地运行 HTML 文件并通过 IP 访问
  • Win10下python环境变量呼出微软应用商店
  • 2025Nacos安装Mac版本 少走弯路版本
  • MySQL设置为严格模式
  • 使用HaiSnap做了一款取件码App(一键生成)