矩池云中LLaMA- Factory多机多卡训练
LLaMA Factory 是一款开源低代码大模型微调框架,集成了业界最广泛使用的微调技术,支持通过 Web UI 界面零代码微调大模型,目前已经成为开源社区内最受欢迎的微调框架之一。但是在矩池云上如何使用LLaMA-Factory多机多卡训练模型呢?接下来就让小编给大家介绍如何在矩池云中使用LLaMA- Factory进行多机多卡训练吧😊
GitHub地址:https://github.com/hiyouga/LLaMA-Factory
一、租用机器
先租用两台两卡的机器,小编使用的的机器类型是8区4090,机器驱动为550,镜像使用的是Pytorch 2.6.0_cuda_12.4,小编建议驱动可以选择高一点。
二、加入集群
首先需要创建一个集群,在矩池云主页左下角点击我的集群,然后在右上角选择区域,最后点击创建集群
接下来就是把所租用的机器加入集群中,并设置好master机器
三、安装LLaMA-Factory
我们需要在主从机器上都安装LLaMAFactory
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
需要注意的是,第三部必须执行,才能使用llamafactory-cli命令执行训练。否则会提示报错
四、训练测试
执行完前面三步操作之后,我们就测试一下是否能正常运行多机多卡训练
FORCE_TORCHRUN=1 NNODES=2 NODE_RANK=0 MASTER_ADDR=192.168.1.11 MASTER_PORT=29500 \
llamafactory-cli train examples/train_lora/gpt_lora_sft.yaml #在主服务器上运行FORCE_TORCHRUN=1 NNODES=2 NODE_RANK=1 MASTER_ADDR=192.168.1.11 MASTER_PORT=29500 \
llamafactory-cli train examples/train_lora/gpt_lora_sft.yaml #在第二个服务器上运行,MASTER_ADDR和MASTER_PORT仍写主服务的ip和端口
需要注意的是,模型运行需要下载数据集,除亚太二区外其他区域的机器需要开代理
如需使用WebUI,参考链接:
https://editor.csdn.net/md/?articleId=147334646
如遇断点重训问题,参考链接:
https://blog.csdn.net/xiong_wq/article/details/143189413