极简 5 步:Ubuntu+RTX4090 源码编译 vLLM
极简 5 步:Ubuntu+RTX4090 源码编译 vLLM
- 1. 系统依赖(一次性)
- 2. 进入源码目录 & 激活环境
- 3. 启用 ccache + 自动并行度
- 4. 拉代码 + 编译(2 行搞定)
- 5. 更新 flash-attn(与 vLLM 配套)
- 6. 启动 4 卡 MiniCPM-V-4
1. 系统依赖(一次性)
sudo apt install -y build-essential git cmake ninja-build ccache
✅ 安装完成后,后续无需再动系统。
2. 进入源码目录 & 激活环境
cd /root/myvllm/vllm_main
conda activate vllm_main
3. 启用 ccache + 自动并行度
export CC="ccache gcc"
export CXX="ccache g++"
export NVCC="ccache nvcc"
export CCACHE_NOHASHDIR=trueCORES=$(nproc)
MEM_GB=$(free -g | awk 'NR==2{print $7}')
MAX_JOBS=$(( MEM_GB / 2 ))
[[ $MAX_JOBS -eq 0 ]] && MAX_JOBS=1
[[ $MAX_JOBS -gt $CORES ]] && MAX_JOBS=$CORES
export MAX_JOBS
echo "本次编译 MAX_JOBS=$MAX_JOBS"
4. 拉代码 + 编译(2 行搞定)
git pull
pip install -r requirements/build.txt
pip install --no-build-isolation -e . -U
- 首次 ≈ 5-10 min
- 增量 ≈ 30 s
5. 更新 flash-attn(与 vLLM 配套)
pip install flash_attn==2.8.0.post2 -U
6. 启动 4 卡 MiniCPM-V-4
vllm serve /root/HuggingFaceCache/MiniCPM-V-4 \--tensor-parallel-size 4 \--gpu-memory-utilization 0.85 \--served-model-name gpt-4o \--trust-remote-code
完结!