当前位置: 首页 > news >正文

sh脚本多卡顺序执行训练文件

常规的单机多卡训练脚本一般为

python -m torch.distributed.run --nproc_per_node 2 train.py

上述脚本采用 2 张显卡训练

采用sh脚本,单次顺序执行多个多卡训练文件

例如  train1.py train2.py

特点:在执行完 train1.py之后再执行train2.py文件

#!/bin/bash# 设置环境变量
export CUDA_VISIBLE_DEVICES=0,1  # 指定使用的 GPU 设备
export NCCL_DEBUG=INFO           # 设置 NCCL 的调试级别
export MASTER_ADDR="127.0.0.1"   # 主节点的 IP 地址
export MASTER_PORT="29500"       # 主节点的端口号# 打印开始时间
echo "Training started at $(date)"# 执行第一个训练脚本
echo "Starting training script 1: train1.py"
python -m torch.distributed.run --nproc_per_node 2 train1.py# 检查第一个脚本是否成功执行
if [ $? -ne 0 ]; thenecho "Training script 1 failed at $(date)"exit 1
elseecho "Training script 1 finished successfully at $(date)"
fi# 确保第一个脚本完全结束后再执行第二个脚本
echo "Waiting for 5 seconds to ensure the first script is fully terminated..."
sleep 5# 执行第二个训练脚本
echo "Starting training script 2: train2.py"
python -m torch.distributed.run --nproc_per_node 2 train2.py# 检查第二个脚本是否成功执行
if [ $? -ne 0 ]; thenecho "Training script 2 failed at $(date)"exit 1
elseecho "Training script 2 finished successfully at $(date)"
fi# 打印结束时间
echo "All training scripts finished at $(date)"

http://www.dtcms.com/a/183324.html

相关文章:

  • Java 开发者 Linux 学习指南
  • 零件画图实战提升案例(下)
  • 最速下降法和梯度下降法的异同
  • sql注入漏洞的对抗
  • 深入探究 InnoDB 的写失效问题
  • 《操作系统真象还原》第十三章——编写硬盘驱动程序
  • JSON 在 Java 中的应用:手动生成与使用库的对比
  • IBM BAW(原BPM升级版)使用教程第八讲
  • 2025年数维杯赛题C题专家 组委会C题专家疑集锦
  • TCP的连接管理
  • C语言_函数hook方案
  • Cesium高度参考系统
  • lnx 0-1 积分
  • 北斗导航 | 北斗RTK定位厄待解决的问题,未来发展
  • 不同句子切割(文本分段 / chunking)工具或库 各自采用的策略和目标对比和分析
  • 系统分析与设计期末复习
  • OSPF案例
  • 小黑独自一人享受思考心流:79. 单词搜索
  • JavaScript基础-switch分支流程控制
  • Qt中的RCC
  • 滚珠丝杆在工作中损耗会影响什么?
  • python笔记和练习----少儿编程课程【阶段二(二)】
  • spark-哈希join介绍
  • vmware环境ORACLE RAC环境数据库节点1无法启动问题分析处理
  • MAD-TD: MODEL-AUGMENTED DATA STABILIZES HIGH UPDATE RATIO RL
  • 打工人TOP,截图工具天花板
  • SSRF服务端请求伪造
  • 自定义类型-结构体(一)
  • MySQL 索引和事务
  • 开疆智能Profinet转canopen网关连接易福门(IFM)传感器配置案例