多卡分布式训练:torchrun --nproc_per_node=5

1. torchrun
实现规则
torchrun
是 PyTorch 提供的用于启动分布式训练作业的实用工具,它基于 torch.distributed
包,核心目标是简化多进程分布式训练的启动和管理。以下是其主要实现规则:

进程启动
- 多进程创建:
torchrun
会依据 --nproc_per_node
参数指定的数量,在当前节点上创建多个进程。每个进程负责执行相同的 Python 脚本,但在不同的 GPU 设备上运行。
- 环境变量设置:为每个进程设置必要的环境变量,像
RANK<