当前位置: 首页 > news >正文

wordpress在哪设置评论三门峡seo

wordpress在哪设置评论,三门峡seo,开什么工作室最稳定,wordpress 锚点应用一、通用基础配置(所有节点必须先执行)Master 和 Worker 的底层环境需完全一致,避免因依赖 / 版本差异导致通信失败,这是分布式部署的前提。1. 网络互通配置(关闭防火墙 固定 IP)所有节点需处于同一局域网…

一、通用基础配置(所有节点必须先执行)

Master 和 Worker 的底层环境需完全一致,避免因依赖 / 版本差异导致通信失败,这是分布式部署的前提。

1. 网络互通配置(关闭防火墙 + 固定 IP)

所有节点需处于同一局域网,且能互相 Ping 通:

# 1. 关闭防火墙(Ubuntu示例,CentOS用firewalld)
sudo ufw disable
sudo systemctl stop ufw
sudo systemctl disable ufw# 2. 验证网络互通(所有节点互相Ping,以Master ping Worker为例)
# Master节点执行
ping 192.168.1.101 -c 3  #  ping Worker1,需显示“0% packet loss”
ping 192.168.1.102 -c 3  #  ping Worker2# 3. 固定IP(可选,避免DHCP导致IP变化)
# 编辑网卡配置文件(Ubuntu 22.04为例,网卡名用ip addr查看,如eth0)
sudo nano /etc/netplan/01-network-manager-all.yaml
# 写入以下内容(替换IP、网关、DNS为实际值)
network:version: 2renderer: NetworkManagerethernets:eth0:dhcp4: noaddresses: [192.168.1.100/24]  # Master填100,Worker1填101,Worker2填102gateway4: 192.168.1.1nameservers:addresses: [8.8.8.8, 114.114.114.114]
# 应用配置
sudo netplan apply
2. 环境一致性配置(Python / 依赖 / CUDA)

所有节点的 Python、PyTorch、DeepSpeed 版本必须完全一致,推荐用 Conda 统一环境:

# 1. 安装Conda(所有节点执行)
wget https://repo.anaconda.com/miniconda/Miniconda3-py310_23.10.0-1-Linux-x86_64.sh
bash Miniconda3-py310_23.10.0-1-Linux-x86_64.sh -b -p ~/miniconda3
source ~/miniconda3/bin/activate# 2. 创建并激活相同虚拟环境(所有节点执行,名称/版本必须一致)
conda create -n deepseek-dist python=3.10 -y
conda activate deepseek-dist# 3. 安装相同版本的依赖(所有节点执行,版本号不可改)
pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu121
pip install deepspeed==0.12.6 transformers==4.35.2 datasets==2.14.6 accelerate==0.24.1 tokenizers==0.14.1 trl==0.7.4# 4. 验证环境一致性(所有节点执行,输出需完全相同)
python -c "import torch; print(torch.__version__)"  # 应输出2.1.0+cu121
deepspeed --version  # 应输出DeepSpeed 0.12.6
nvidia-smi  # 确认CUDA版本≥12.1,GPU驱动≥530.30.02

二、Master 节点专属配置(核心控制节点)

Master 节点需承担 “分发任务、同步梯度、管理日志” 的角色,需配置SSH 免密、节点列表、控制参数

1. SSH 免密登录配置(Master 能无密码访问所有 Worker)

分布式训练需 Master 通过 SSH 远程控制 Worker,必须配置免密:

# 1. Master节点生成SSH密钥(一路回车,不设密码)
ssh-keygen -t rsa# 2. 将Master的公钥分发到所有Worker节点(包括自身,避免本地调用报错)
ssh-copy-id root@192.168.1.100  # 分发到Master自身
ssh-copy-id root@192.168.1.101  # 分发到Worker1(需输入Worker1的root密码)
ssh-copy-id root@192.168.1.102  # 分发到Worker2(需输入Worker2的root密码)# 3. 验证免密登录(Master节点执行,无需输密码即成功)
ssh root@192.168.1.101 "echo Worker1 connected"
ssh root@192.168.1.102 "echo Worker2 connected"
2. 编写节点列表文件(hostfile)

Master 需通过hostfile明确所有节点的 IP 和 GPU 数量,DeepSpeed 会自动根据此文件分配资源:

# Master节点创建ds_config.json(路径:~/deepseek/ds_config.json)
nano ~/deepseek/ds_config.json
# 写入以下配置(7B模型通用,33B模型需改stage=3)
{"train_batch_size": 48,          // 总批次=3节点×2卡×8=48(根据显存调整)"gradient_accumulation_steps": 4, // 梯度累积(减少通信频率)"optimizer": {"type": "AdamW","params": { "lr": 2e-5, "weight_decay": 0.01 }},"fp16": { "enabled": true },     // FP16混合精度(降低显存占用)"zero_optimization": {"stage": 2,                    // ZeRO Stage2(优化梯度/ optimizer状态)"contiguous_gradients": true,  // 连续梯度(减少内存碎片)"overlap_comm": true           // 通信与计算重叠(提升效率)},"communication_data_type": "float16", // 通信数据类型(减少带宽)"wall_clock_breakdown": false
}
4. 同步关键文件到所有 Worker

Master 的hostfileds_config.json、训练脚本train.py需同步到所有 Worker 的相同路径,确保 Worker 能读取配置:

# Master节点执行,同步文件到Worker1
scp ~/deepseek/hostfile root@192.168.1.101:~/deepseek/
scp ~/deepseek/ds_config.json root@192.168.1.101:~/deepseek/
scp ~/deepseek/train.py root@192.168.1.101:~/deepseek/# 同步文件到Worker2
scp ~/deepseek/hostfile root@192.168.1.102:~/deepseek/
scp ~/deepseek/ds_config.json root@192.168.1.102:~/deepseek/
scp ~/deepseek/train.py root@192.168.1.102:~/deepseek/

三、Worker 节点专属配置(执行计算节点)

Worker 节点无需主动配置控制参数,只需确保能被 Master 访问、环境一致、文件同步,核心是 “被动响应 Master 的任务指令”。

1. 验证 Master 公钥已同步

Worker 节点需确认 Master 的公钥已添加到自身的授权列表,避免 SSH 连接失败:

# Worker1/Worker2节点执行,查看授权列表
cat ~/.ssh/authorized_keys
# 输出应包含Master节点的SSH公钥(以ssh-rsa开头,结尾是Master的用户名@主机名)
2. 验证关键文件已同步

Worker 节点需确认 Master 同步的hostfileds_config.jsontrain.py已在相同路径(如~/deepseek/

# Worker1/Worker2节点执行,查看文件是否存在
ls ~/deepseek/
# 应输出:hostfile  ds_config.json  train.py
3. 禁用 Worker 的不必要服务(可选)

为避免 Worker 节点资源被占用,可关闭无关服务(如图形界面、自动更新):

# Worker1/Worker2节点执行,关闭图形界面(服务器无需GUI)
sudo systemctl set-default multi-user.target
sudo systemctl stop gdm3  # Ubuntu桌面环境服务# 关闭自动更新(避免更新打断训练)
sudo systemctl stop apt-daily.service
sudo systemctl disable apt-daily.service

四、启动分布式任务(Master 节点执行,Worker 自动响应)

所有配置完成后,仅需在 Master 节点执行启动命令,Worker 节点会被 Master 自动唤醒并执行任务,无需手动操作。

1. 激活虚拟环境
# Master节点执行,激活之前创建的环境
source ~/miniconda3/bin/activate
conda activate deepseek-dist
2. 启动命令(关键参数绑定 Master 角色
# 进入训练脚本目录
cd ~/deepseek/# 启动分布式训练(仅Master执行,Worker自动同步)
deepspeed --hostfile ./hostfile \--master_addr 192.168.1.100 \  # 绑定Master的IP(必须是Master自身IP)--master_port 29500 \          # Master的通信端口(未被占用即可,如29500-29510)train.py  # 训练脚本(需与Worker节点路径一致)
  • 参数解读
    • --hostfile:Master 通过此文件找到所有 Worker 节点,无需手动指定 Worker IP。
    • --master_addr/--master_port:Worker 节点会通过这两个参数连接到 Master,确认 “谁是主节点”。
    • 执行后,Master 会打印 “DeepSpeed info”,显示 “Number of nodes: 3”“Number of GPUs: 6”,说明角色绑定成功;Worker 节点会自动加载模型并开始计算(通过nvidia-smi可看到 GPU 显存占用上升)。

五、角色区分核心总结

通过以上配置,即可明确区分 Master 和 Worker 的角色,实现 DeepSeek 的分布式部署。核心原则是 “Master 管控制,Worker 管计算”,所有差异配置均围绕 “Master 能找到并控制 Worker” 展开。

http://www.dtcms.com/a/458365.html

相关文章:

  • 《信号与系统》的积分变换·理论总结
  • 邯郸有做网站的吗word可以制作网页吗
  • 单页面企业网站网站首页的模块布局
  • 做购物商城网站建设android移动网站开发详解
  • 大模型领域中模型压缩与高效推理的核心技术之一:量化技术
  • 虚幻基础:组件间的联动
  • 东莞商城网站建设价格10条重大新闻事件
  • 字体设计教程网站我的网站现在没有排名_我想问是不是花钱做百度推广就会有排名
  • 常规的微距镜头有哪些类型?能做什么?
  • 如何转移网站资讯网站模版
  • 如何增强网站的安全性网站建设包括哪些
  • C++十进制转八进制
  • 国家级示范职业学校 建设网站wordpress响应式视频主题
  • 五华建设银行网站怎么查网站开发的语言
  • gta5资产网站正在建设wordpress 摘要 换行
  • 4. 电容1
  • 做网站用什么电脑好如何做纯文本网站
  • 苏州建设监理有限公司网站示范校建设网站维护
  • 【开题答辩全过程】以基于Vue的医院预约挂号系统的设计与实现为例,包含答辩的问题和答案
  • 做素材网站存储南京网站建设推南京网站建设设计
  • 顺义网站优化网站建设的描述
  • editplus网站开发网站打开慢怎么回事
  • 联想乐权威解析:2025年联想笔记本选购指南
  • 用vuejs做的网站学习网站建设
  • wordpress谷歌插件wordpress 优化 插件
  • 深圳网站建设有市场吗怎么在广西建设厅网站注销c证
  • 网站推广招商php网站开发模板
  • 如何给自己的公司建网站网站快速收录技术
  • 夏家胡同网站建设西宁那有做网站的
  • 国外外包网站云南推广公司