当前位置：首页 > news >正文

VLM Qwen2.5VL GRPO训练微调 EasyR1 多机多卡训练（2）

news 2025/7/4 0:32:39

在之前博客进行了简单的训练尝试：https://www.dong-blog.fun/post/2060

在本博客，将会深入进行多机多卡训练，以及调整训练奖励函数。

之前构建了镜像： docker build . -t kevinchina/deeplearning:r1

FROM hiyouga/verl:ngc-th2.6.0-cu126-vllm0.8.4-flashinfer0.2.2-cxx11abi0
WORKDIR /workplace
RUN git clone https://github.com/hiyouga/EasyR1.git
WORKDIR /workplace/EasyR1
RUN pip install -e . -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
RUN pip install swanlab -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

多机多卡的rbma通信条件在这个镜像也具备： apt-get install libibverbs1 -y

verl 依托于 Ray，所以多机多卡使用需要使用Ray进行训练，Ray和torchrun的原理也差不多。Ray在master节点启动head，在子节点启动服务，然后由Ray统一任务调度。

所以官网教程有：

http://www.dtcms.com/a/168785.html

相关文章：

代码随想录算法训练营第60期第二十二天打卡

Linux diff 命令使用详解

重构之道：识别并替换不合适使用的箭头函数

19.9/Q1，GBD数据库高分文章解读

React pros比较机制

K8s ConfigMap实战：像设置手机一样管理配置！

探索 Disruptor：高性能并发框架的奥秘

单一职责原则（SRP）

Nginx核心功能及正则表达

使用arduino控制超声传感器HC-SR04测量距离

清洗数据集

C#编程精要：局部变量、类型推断与常量深度解析

HTTP和HTTPS

内部类（3）：匿名内部类

拆解一个550-800Mhz的LC滤波器内部大图配测试曲线

前端应用开发技术历程的简要概览

wfp CommandParameter 详细解说

[Windows] Simple Live v1.8.3 开源聚合直播：支持哔哩哔哩 / 虎牙 / 斗鱼 / 抖音

LWIP带freeRTOS系统移植笔记

[算法学习]——通过RMQ与dfs序实现O(1)求LCA（含封装板子）

C#将Mat或Byte快速转换为Bitmap格式

高露洁牙膏是哪个国家的品牌？高露洁牙膏哪一款最好？

内置类型成员变量的初始化详解

【基础算法】二分查找的多种写法

rabbitMQ如何确保消息不会丢失

Qt通过QXlsx库文件写入到excl文件，读取excl文件

解决The‘InnoDB’feature is disabled； you need MySQL built with ‘InnoDB’ to have it

计算几何（简单旋转卡壳）2024昆明邀请赛

Expected SARSA算法详解：python 从零实现

仿腾讯会议——注册登录实现