当前位置: 首页 > news >正文

sh脚本多卡顺序执行训练文件

常规的单机多卡训练脚本一般为

python -m torch.distributed.run --nproc_per_node 2 train.py

上述脚本采用 2 张显卡训练

采用sh脚本,单次顺序执行多个多卡训练文件

例如  train1.py train2.py

特点:在执行完 train1.py之后再执行train2.py文件

#!/bin/bash# 设置环境变量
export CUDA_VISIBLE_DEVICES=0,1  # 指定使用的 GPU 设备
export NCCL_DEBUG=INFO           # 设置 NCCL 的调试级别
export MASTER_ADDR="127.0.0.1"   # 主节点的 IP 地址
export MASTER_PORT="29500"       # 主节点的端口号# 打印开始时间
echo "Training started at $(date)"# 执行第一个训练脚本
echo "Starting training script 1: train1.py"
python -m torch.distributed.run --nproc_per_node 2 train1.py# 检查第一个脚本是否成功执行
if [ $? -ne 0 ]; thenecho "Training script 1 failed at $(date)"exit 1
elseecho "Training script 1 finished successfully at $(date)"
fi# 确保第一个脚本完全结束后再执行第二个脚本
echo "Waiting for 5 seconds to ensure the first script is fully terminated..."
sleep 5# 执行第二个训练脚本
echo "Starting training script 2: train2.py"
python -m torch.distributed.run --nproc_per_node 2 train2.py# 检查第二个脚本是否成功执行
if [ $? -ne 0 ]; thenecho "Training script 2 failed at $(date)"exit 1
elseecho "Training script 2 finished successfully at $(date)"
fi# 打印结束时间
echo "All training scripts finished at $(date)"

相关文章:

  • Java 开发者 Linux 学习指南
  • 零件画图实战提升案例(下)
  • 最速下降法和梯度下降法的异同
  • sql注入漏洞的对抗
  • 深入探究 InnoDB 的写失效问题
  • 《操作系统真象还原》第十三章——编写硬盘驱动程序
  • JSON 在 Java 中的应用:手动生成与使用库的对比
  • IBM BAW(原BPM升级版)使用教程第八讲
  • 2025年数维杯赛题C题专家 组委会C题专家疑集锦
  • TCP的连接管理
  • C语言_函数hook方案
  • Cesium高度参考系统
  • lnx 0-1 积分
  • 北斗导航 | 北斗RTK定位厄待解决的问题,未来发展
  • 不同句子切割(文本分段 / chunking)工具或库 各自采用的策略和目标对比和分析
  • 系统分析与设计期末复习
  • OSPF案例
  • 小黑独自一人享受思考心流:79. 单词搜索
  • JavaScript基础-switch分支流程控制
  • Qt中的RCC
  • 著名文物鉴赏家吴荣光逝世,享年78岁
  • 首映丨纪录电影《滚烫年华》:献给所有奋斗者
  • 中美经贸高层会谈将在午餐后继续
  • 婚姻登记“全国通办”首日观察:数据多跑路,群众少跑腿
  • 阚吉林任重庆市民政局党组书记,原任市委组织部主持日常工作的副部长
  • 壹基金发布2024年度报告,公益项目惠及937万人次