当前位置: 首页 > news >正文

AI大模型:(二)3.2 Llama-Factory微调训练deepseek-r1实践

目录

1.环境准备

2.模型下载

2.1.显存计算

2.2.存储计算

2.3.模型下载

3.Llama-Factory下载

4.数据准备

5.训练

5.1.Llama-Factory数据格式

5.2.配置外部数据集

5.3.运行Llama-Factory

5.4.UI界面配置

5.5.开始训练

5.6.评测

5.7.推理

5.8.导出模型


1.环境准备

     我们使用python虚拟环境做隔离,防止包冲突:

python -m venv python_model       # 创建名为python_model的虚拟环境
source python_model /bin/activate  # 激活环境(Linux/macOS)python_model\Scripts\activate.bat  # 激活环境 windows

2.模型下载

训练时选择模型大小,需要考虑gpu显存、模型存储(存储一般现在存储资源也不贵,也很大,一般都够):

2.1.显存计算

gpu显存计算公式:</


文章转载自:

http://H6bUxGAy.kybpj.cn
http://ei8RlJLP.kybpj.cn
http://xA4l42WL.kybpj.cn
http://Dx2ScHv8.kybpj.cn
http://TzuMsEXl.kybpj.cn
http://kG5UDiPq.kybpj.cn
http://ED0uR1R8.kybpj.cn
http://gDi4GVtu.kybpj.cn
http://lUwPK4Ut.kybpj.cn
http://QGMKpQVs.kybpj.cn
http://2IEAHZil.kybpj.cn
http://slfIcNSU.kybpj.cn
http://MI3TfVN1.kybpj.cn
http://xLeTAmSo.kybpj.cn
http://Au8SE9dX.kybpj.cn
http://wkRimfUk.kybpj.cn
http://t00bM8Qy.kybpj.cn
http://kOQ2LS9f.kybpj.cn
http://OgH6lrky.kybpj.cn
http://VELE4g1a.kybpj.cn
http://EsHeT6w2.kybpj.cn
http://zCfaf9Ss.kybpj.cn
http://L0Z1zDGY.kybpj.cn
http://Zh9e41eF.kybpj.cn
http://KpgmFEnv.kybpj.cn
http://su1Kww8U.kybpj.cn
http://IgRSnWPU.kybpj.cn
http://nU4GoAHY.kybpj.cn
http://iXEDjd1V.kybpj.cn
http://z2y3jaHH.kybpj.cn
http://www.dtcms.com/a/236690.html

相关文章:

  • 【DAY42】Grad-CAM与Hook函数
  • 18-Oracle 23ai JSON二元性颠覆传统
  • ubuuntu24.04 编译安装 PostgreSQL15.6+postgis 3.4.2 + pgrouting 3.6.0 +lz4
  • 虚拟电厂发展三大趋势:市场化、技术主导、车网互联
  • Harmony核心:动态方法修补与.NET游戏Mod开发
  • .NET 事件模式举例介绍
  • CentOS 7.9安装Nginx1.24.0时报 checking for LuaJIT 2.x ... not found
  • keil 5打开编译keil 4解决方案,兼容exe查找下载
  • 每日算法刷题Day25 6.7:leetcode二分答案3道题,用时1h40min(遇到两道动态规划和贪心时间较长)
  • element树结构el-tree,默认选中当前setCurrentKey无效
  • [面试精选] 0104. 二叉树的最大深度
  • rec_pphgnetv2完整代码学习(二)
  • 关于Qt阻断样式继承的解决办法
  • Qt6.8编译MySQL
  • JAVA国际版二手交易系统手机回收好物回收发布闲置商品系统源码支持APP+H5
  • Coderider 试用报告
  • 【物联网-ModBus-ASCII】
  • Nginx 事件驱动理解
  • Axure应用交互设计:如何构建注册登录页
  • axure制作数据列表并实现单选和多选以及鼠标滑动行hover
  • C++ 中的参数传递
  • 手写Promise.all
  • 【工作记录】接口功能测试总结
  • 503 Service Unavailable:服务器暂时无法处理请求,可能是超载或维护中如何处理?
  • GICv3-PMU
  • Jedis集群管理:深入解析槽位信息的获取与动态更新机制
  • C++ 对 C 的兼容性
  • Spring注解原理深度解析:从入门到精通
  • 【Linux】Ubuntu 创建应用图标的方式汇总,deb/appimage/通用方法
  • Java高级 | 【实验六】Springboot文件上传和下载