当前位置: 首页 > news >正文

多机多卡训练指南

1 分布式的机器配置

1.1 组成局域网

五台电脑IP地址分别为:192.168.56.111~115
组成局域网后有的电脑可以上互联网,有的不行。

测试是否组成局域网

  • ifconfig 查看电脑IP
  • ping 另外电脑的IP地址
    在这里插入图片描述

1.2 共享home里面的文件夹(共享其它磁盘里的文件夹,权限不够)

首先设置要共享文件夹的电脑
ubuntu18.04怎么共享文件夹给其它电脑使用
Linux 多种方式实现文件共享
(https://jingyan.baidu.com/article/2f9b480dd15f4241cb6cc2d8.html)

其它要访问共享文件夹的电脑
在Ubuntu计算机上打开"主文件夹“,然后选择网络下的”连接到服务器“。在服务器地址中输入”smb://目标ip“
在 other location的服务器地址栏输入 smb:\192.168.56.113(192.168.56.113为有共享文件夹的电脑静态IP地址)

2 分布式训练

准备数据集imagenet
更改代码里的数据集路径
运行代码(貌似电脑数量为奇数会报error)

参考torch.distributed.launch.py设置:四台电脑的命令依次为(以第一台192.168.56.111为主机):

python -m torch.distributed.launch --nnodes=4 --node_rank=0 --nproc_per_node=1 --master_addr 192.168.56.111 --master_port 29500 train.py --per_node_batch_size 24
​
python -m torch.distributed.launch --nnodes=4 --node_rank=1 --nproc_per_node=1 --master_addr 192.168.56.111 --master_port 29500 train.py --per_node_batch_size 24
​
python -m torch.distributed.launch --nnodes=4 --node_rank=2 --nproc_per_node=1 --master_addr 192.168.56.111 --master_port 29500 train.py --per_node_batch_size 24python -m torch.distributed.launch --nnodes=4 --node_rank=3 --nproc_per_node=1 --master_addr 192.168.56.111 --master_port 29500 train.py --per_node_batch_size 24


–nnodes为总的节点数即电脑数量;
–node_rank为电脑的全局序号,rank=0的电脑必须是主机;
–nproc_per_node为每个电脑上的进程数量,一般一个GPU为一个进程;
–master_addr和–master_port为主机的IP地址和空闲端口地址;
train.py为通过launch.py启动的代码文件;(在后面的才是train.py的参数)
–per_node_batch_size为每个节点的batch size。
总进程数:world_size = args.nproc_per_node * args.nnodes

http://www.dtcms.com/a/606180.html

相关文章:

  • 深入浅出:进程和线程的区别与联系
  • 做一个静态网站需要多少钱关键词
  • 西安网站建设方案外包浏览器网页版打开网页
  • 【Redis】 SpringBoot集成Redis
  • 网易企业邮箱邮箱登录入口江西网站建设优化服务
  • 汕头吧 百度贴吧超级优化小说
  • 视觉学习篇——机器学习模型评价指标
  • Java Agent 和字节码注入技术原理和实现
  • Java后端常用技术选型 |(五)可视化工具篇
  • 【数据库】Apache IoTDB数据库在大数据场景下的时序数据模型与建模方案
  • 网站建设系统课程广东建设网 四川是什么网站
  • 不止于 API 调用:解锁 Java 工具类设计的三重境界 —— 可复用性、线程安全与性能优化
  • 数据结构与算法:树(Tree)精讲
  • AI入门系列之GraphRAG使用指南:从环境搭建到实战应用
  • 【SolidWorks】默认模板设置
  • 基于秩极小化的压缩感知图像重建的MATLAB实现
  • 无人机图传模块技术要点与难点
  • Spring Cloud Alibaba 2025.0.0 整合 ELK 实现日志
  • AI+虚拟仿真:开启无人机农林应用人才培养新路径
  • ELK 9.2.0 安装部署手册
  • 代码统计网站wordpress设置在新页面打开空白
  • 网站开发的流程 知乎设计培训网站建设
  • Qt 的字节序转换
  • QT Quick QML项目音乐播放器17----自定义Notification通知、请求错误提示、Loading加载中提示
  • 【Qt】AddressSanitizer 简介
  • Linux(麒麟)服务器离线安装单机Milvus向量库
  • Qt Widgets和Qt Qucik在开发工控触摸程序的选择
  • 毕业设计网站做几个图片设计素材
  • 网站设计计划深圳分销网站设计公司
  • word套打工具根据高度动态分页