当前位置：首页 > news >正文

矩池云中LLaMA- Factory多机多卡训练

news 2025/8/30 7:42:04

LLaMA Factory 是一款开源低代码大模型微调框架，集成了业界最广泛使用的微调技术，支持通过 Web UI 界面零代码微调大模型，目前已经成为开源社区内最受欢迎的微调框架之一。但是在矩池云上如何使用LLaMA-Factory多机多卡训练模型呢？接下来就让小编给大家介绍如何在矩池云中使用LLaMA- Factory进行多机多卡训练吧😊

GitHub地址：https://github.com/hiyouga/LLaMA-Factory

一、租用机器

先租用两台两卡的机器，小编使用的的机器类型是8区4090，机器驱动为550，镜像使用的是Pytorch 2.6.0_cuda_12.4，小编建议驱动可以选择高一点。
在这里插入图片描述

二、加入集群

首先需要创建一个集群，在矩池云主页左下角点击我的集群，然后在右上角选择区域，最后点击创建集群

在这里插入图片描述

接下来就是把所租用的机器加入集群中，并设置好master机器
在这里插入图片描述

三、安装LLaMA-Factory

我们需要在主从机器上都安装LLaMAFactory

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

需要注意的是，第三部必须执行，才能使用llamafactory-cli命令执行训练。否则会提示报错

四、训练测试

执行完前面三步操作之后，我们就测试一下是否能正常运行多机多卡训练

FORCE_TORCHRUN=1 NNODES=2 NODE_RANK=0 MASTER_ADDR=192.168.1.11 MASTER_PORT=29500 \
llamafactory-cli train examples/train_lora/gpt_lora_sft.yaml  #在主服务器上运行FORCE_TORCHRUN=1 NNODES=2 NODE_RANK=1 MASTER_ADDR=192.168.1.11 MASTER_PORT=29500 \
llamafactory-cli train examples/train_lora/gpt_lora_sft.yaml  #在第二个服务器上运行，MASTER_ADDR和MASTER_PORT仍写主服务的ip和端口

需要注意的是，模型运行需要下载数据集，除亚太二区外其他区域的机器需要开代理

如需使用WebUI，参考链接：

https://editor.csdn.net/md/?articleId=147334646

如遇断点重训问题，参考链接：

https://blog.csdn.net/xiong_wq/article/details/143189413

查看全文

http://www.dtcms.com/a/356898.html

介绍⼀下Llama的结构

身份证实名认证API集成—身份核验接口-网络平台安全合规

GoogLeNet：深度学习中的“卷积网络变形金刚“

安全月报 | 傲盾DDoS攻击防御2025年8月简报

贷款审批太慢，如何快速完成财务报表识别录入？

第十三章项目资源管理--13.8 控制资源

关于人工智能模型应用于编程学习我也说两句

2025 IBMS智能化集成系统全面解析指导手册

8月29日星期五今日早报简报微语报早读

创维E910V10C_海思MV100芯片_优盘强刷卡刷固件包

基于脚手架微服务的视频点播系统界面布局部分(一):首页及播放界面布局

【基于hyperledger fabric的教育证书管理系统】

redux toolkit (RTK)

蓝牙配对鉴权过程深度剖析：Just Works/Numeric Comparison/Passkey Entry/OOB 协议流程

KNN算法详解：从原理到实战（鸢尾花分类手写数字识别）

node.js 安装步骤

Python教学：6. 循环

巨头围猎“单人经济”：自助小火锅如何成为餐饮新破局点？

淘宝扭蛋机小程序系统开发：打造个性化线上购物乐园

Anaconda、OpenCV安装配置方法

老地方新世界｜GitCodeAI 社区升级发布会来了

【LeetCode每日一题】141. 环形链表 142.环形链表 II

麒麟系统使用-VSCode运行.net过程中一些可能问题及解决办法

【前端教程】JavaScript 对象与数组操作实战：从基础到优化

课程视频怎么加密？在线教育机构常用的6个课程加密方法

视频转音频

学习Java30天（tcp的多开客户端和bs架构以及java高级）

R 语言 + 卒中 Meta 分析

如何用 Kotlin 在 Android 手机开发一个小闹钟、计时器、秒表

Vue3+Ant-design-vue 实现树形穿梭框

一、租用机器

二、加入集群

三、安装LLaMA-Factory

四、训练测试

相关文章：