当前位置: 首页 > news >正文

VLM Qwen2.5VL GRPO训练微调 EasyR1 多机多卡训练(2)

在之前博客进行了简单的训练尝试:https://www.dong-blog.fun/post/2060

在本博客,将会深入进行多机多卡训练,以及调整训练奖励函数。

之前构建了镜像: docker build . -t kevinchina/deeplearning:r1

FROM hiyouga/verl:ngc-th2.6.0-cu126-vllm0.8.4-flashinfer0.2.2-cxx11abi0
WORKDIR /workplace
RUN git clone https://github.com/hiyouga/EasyR1.git
WORKDIR /workplace/EasyR1
RUN pip install -e . -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
RUN pip install swanlab -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

多机多卡的rbma通信条件在这个镜像也具备: apt-get install libibverbs1 -y

verl 依托于 Ray, 所以多机多卡使用需要使用Ray进行训练,Ray和torchrun的原理也差不多。Ray在master节点启动head,在子节点启动服务,然后由Ray统一任务调度。

所以官网教程有:

http://www.dtcms.com/a/168785.html

相关文章:

  • 代码随想录算法训练营第60期第二十二天打卡
  • Linux diff 命令使用详解
  • 重构之道:识别并替换不合适使用的箭头函数
  • 19.9/Q1,GBD数据库高分文章解读
  • React pros比较机制
  • K8s ConfigMap实战:像设置手机一样管理配置!
  • 探索 Disruptor:高性能并发框架的奥秘
  • 单一职责原则(SRP)
  • Nginx核心功能及正则表达
  • 使用arduino控制超声传感器HC-SR04测量距离
  • 清洗数据集
  • C#编程精要:局部变量、类型推断与常量深度解析
  • HTTP和HTTPS
  • 内部类(3):匿名内部类
  • 拆解一个550-800Mhz的LC滤波器内部大图配测试曲线
  • 前端应用开发技术历程的简要概览
  • wfp CommandParameter 详细解说
  • [Windows] Simple Live v1.8.3 开源聚合直播 :支持哔哩哔哩 / 虎牙 / 斗鱼 / 抖音
  • LWIP带freeRTOS系统移植笔记
  • [算法学习]——通过RMQ与dfs序实现O(1)求LCA(含封装板子)
  • C#将Mat或Byte快速转换为Bitmap格式
  • 高露洁牙膏是哪个国家的品牌?高露洁牙膏哪一款最好?
  • 内置类型成员变量的初始化详解
  • 【基础算法】二分查找的多种写法
  • rabbitMQ如何确保消息不会丢失
  • Qt通过QXlsx库文件写入到excl文件,读取excl文件
  • 解决The‘InnoDB’feature is disabled; you need MySQL built with ‘InnoDB’ to have it
  • 计算几何(简单旋转卡壳)2024昆明邀请赛
  • Expected SARSA算法详解:python 从零实现
  • 仿腾讯会议——注册登录实现