vLLM命令行使用方法详解
vLLM 是一个针对大语言模型(LLMs)优化的高效推理和服务库。以下是 vLLM 命令行工具的详细使用方法解析,涵盖常见场景和参数配置:
一、核心命令行工具
vLLM 提供两个主要的命令行入口:
-
启动 API 服务器
用于部署 HTTP/OpenAI 兼容的 API 服务:python -m vllm.entrypoints.api_server \ --model <model_path_or_name> \ [--host 0.0.0.0] \ [--port 8000] \ [--tensor-parallel-size 1] \ [--gpu-memory-utilization 0.9] \ [--max-num-seqs 256] \ [--max-num-batched-tokens 2048]
-
离线批量推理
用于直接处理输入文件并生成结果:python -m vllm.entrypoints.offline_inference \ --model <model_path_or_name> \ --input-path prompts.json \ --output-path outputs.json \ [--temperature 0.8] \ [--max-to