当前位置: 首页 > news >正文

VLM Qwen2.5VL GRPO训练微调 EasyR1 多机多卡训练(2)

在之前博客进行了简单的训练尝试:https://www.dong-blog.fun/post/2060

在本博客,将会深入进行多机多卡训练,以及调整训练奖励函数。

之前构建了镜像: docker build . -t kevinchina/deeplearning:r1

FROM hiyouga/verl:ngc-th2.6.0-cu126-vllm0.8.4-flashinfer0.2.2-cxx11abi0
WORKDIR /workplace
RUN git clone https://github.com/hiyouga/EasyR1.git
WORKDIR /workplace/EasyR1
RUN pip install -e . -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
RUN pip install swanlab -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

多机多卡的rbma通信条件在这个镜像也具备: apt-get install libibverbs1 -y

verl 依托于 Ray, 所以多机多卡使用需要使用Ray进行训练,Ray和torchrun的原理也差不多。Ray在master节点启动head,在子节点启动服务,然后由Ray统一任务调度。

所以官网教程有:

相关文章:

  • 代码随想录算法训练营第60期第二十二天打卡
  • Linux diff 命令使用详解
  • 重构之道:识别并替换不合适使用的箭头函数
  • 19.9/Q1,GBD数据库高分文章解读
  • React pros比较机制
  • K8s ConfigMap实战:像设置手机一样管理配置!
  • 探索 Disruptor:高性能并发框架的奥秘
  • 单一职责原则(SRP)
  • Nginx核心功能及正则表达
  • 使用arduino控制超声传感器HC-SR04测量距离
  • 清洗数据集
  • C#编程精要:局部变量、类型推断与常量深度解析
  • HTTP和HTTPS
  • 内部类(3):匿名内部类
  • 拆解一个550-800Mhz的LC滤波器内部大图配测试曲线
  • 前端应用开发技术历程的简要概览
  • wfp CommandParameter 详细解说
  • [Windows] Simple Live v1.8.3 开源聚合直播 :支持哔哩哔哩 / 虎牙 / 斗鱼 / 抖音
  • LWIP带freeRTOS系统移植笔记
  • [算法学习]——通过RMQ与dfs序实现O(1)求LCA(含封装板子)
  • 江西4人拟任县(市、区)委书记,其中一人为“80后”
  • 李成钢出席中国与《数字经济伙伴关系协定》成员部级会议
  • 埃尔多安:愿在土耳其促成俄乌领导人会晤
  • “免签圈”扩容,旅游平台:今年以来巴西等国入境游订单显著增加
  • 株洲一重病妇女被要求本人到银行取款时去世?当地警方:正在处理
  • 多个侵华日军细菌战部队留守名簿文件首次公布