当前位置: 首页 > news >正文

AI大模型:(二)3.2 Llama-Factory微调训练deepseek-r1实践

目录

1.环境准备

2.模型下载

2.1.显存计算

2.2.存储计算

2.3.模型下载

3.Llama-Factory下载

4.数据准备

5.训练

5.1.Llama-Factory数据格式

5.2.配置外部数据集

5.3.运行Llama-Factory

5.4.UI界面配置

5.5.开始训练

5.6.评测

5.7.推理

5.8.导出模型


1.环境准备

     我们使用python虚拟环境做隔离,防止包冲突:

python -m venv python_model       # 创建名为python_model的虚拟环境
source python_model /bin/activate  # 激活环境(Linux/macOS)python_model\Scripts\activate.bat  # 激活环境 windows

2.模型下载

训练时选择模型大小,需要考虑gpu显存、模型存储(存储一般现在存储资源也不贵,也很大,一般都够):

2.1.显存计算

gpu显存计算公式:</

相关文章:

  • 【DAY42】Grad-CAM与Hook函数
  • 18-Oracle 23ai JSON二元性颠覆传统
  • ubuuntu24.04 编译安装 PostgreSQL15.6+postgis 3.4.2 + pgrouting 3.6.0 +lz4
  • 虚拟电厂发展三大趋势:市场化、技术主导、车网互联
  • Harmony核心:动态方法修补与.NET游戏Mod开发
  • .NET 事件模式举例介绍
  • CentOS 7.9安装Nginx1.24.0时报 checking for LuaJIT 2.x ... not found
  • keil 5打开编译keil 4解决方案,兼容exe查找下载
  • 每日算法刷题Day25 6.7:leetcode二分答案3道题,用时1h40min(遇到两道动态规划和贪心时间较长)
  • element树结构el-tree,默认选中当前setCurrentKey无效
  • [面试精选] 0104. 二叉树的最大深度
  • rec_pphgnetv2完整代码学习(二)
  • 关于Qt阻断样式继承的解决办法
  • Qt6.8编译MySQL
  • JAVA国际版二手交易系统手机回收好物回收发布闲置商品系统源码支持APP+H5
  • Coderider 试用报告
  • 【物联网-ModBus-ASCII】
  • Nginx 事件驱动理解
  • Axure应用交互设计:如何构建注册登录页
  • axure制作数据列表并实现单选和多选以及鼠标滑动行hover
  • 佳木斯 网站建设/谷歌海外推广
  • 自己搭建服务器访问国外网站/品牌型网站设计推荐
  • 网站预算/磁力搜索引擎torrentkitty
  • 平度网站建设/怎么提升关键词的质量度
  • 怎么用linux做网站服务器吗/梁水才seo优化专家
  • 360建筑网在哪里/aso关键词优化工具