Agentlightning环境准备
一、基础设施概述
Agent Lightning 的基础设施由三个核心层构成:
- GPU 计算环境:支持 CUDA 12.8 的 GPU 环境。
- Ray 分布式计算集群:作为训练任务的分发与调度核心。
- 部署自动化脚本:用于环境初始化、依赖安装和集群管理。
二、部署策略
系统支持两种部署模式:
1. 稳定部署(Stable Deployment)
使用固定版本的依赖项,确保环境可复现:
组件 | 版本 | 说明 |
---|---|---|
torch | 2.7.0 | PyTorch 基础框架,CUDA 12.8 |
flash-attn | 2.8.1 | 优化的注意力机制实现 |
vltm | 0.9.2 | 高性能 LLM 推理库 |
transformers | 4.53.3 | Hugging Face 模型库 |
vert | commit idf03f3 | VERL 框架(指定提交) |
2. 最新部署(Latest Deployment)
使用最新兼容版本,适用于前沿功能开发:
- PyTorch latest(支持 CUDA 12.8)
- Flash Attention 最新版
- VLLM 最新发布版
- VERL 从 main 分支拉取
三、环境设置流程
环境设置遵循以下顺序以确保依赖兼容性:
- 安装系统级构建工具
- 安装 PyTorch 生态(含 CUDA 支持)
- 安装 Flash Attention(禁用构建隔离)
- 安装 VLLM
- 从源码安装 VERL
- 安装 Agent Lightning(含开发与 agent 扩展)
四、Ray 集群配置
Ray 集群是 Agent Lightning 的分布式计算核心,配置包括:
环境变量
RAY_DEBUG=legacy
HYDRA_FULL_ERROR=1
VLLM_USER_V1=1
启动命令
ray start --head --dashboard-host=0.0.0.0
五、基础设施依赖
核心依赖层级
层级 | 组件 | 安装方式 |
---|---|---|
基础层 | packaging, ninja, numpy, pandas | pip install |
PyTorch | torch, torchvision, torchaudio | CUDA 12.8 索引安装 |
优化层 | flash-attn | 禁用构建隔离安装 |
推理层 | vllm | 标准 pip 安装 |
RL 框架 | ver1 | Git clone + 可编辑安装 |
Agent Lightning | 核心包 | 可编辑安装(含 extras) |