当前位置: 首页 > news >正文

AI Agent开发第73课-预训练qwen3-如何加入自己的语料

开篇

前面一篇《教授训练本地带思维链模式的模型》我们从头到底讲述了利用llama-factory以SFT的方式微调一个模型,让模型在回答“你是谁”时,可以回答我们指定的内容,并在最后我们把训练好的模型“烧成”可以运行在ollama里的模型的全部过程。

有了前一篇的知识,今天我们来讲,如何把本企业的内部知识库如:员工手册、退货流程或者一些达半年都不太变动的“固定”知识“烧”进Qwen3里。如之前篇章里说到过的:经常变动的、实时变动的我们要用RAG,而需要写入“DNA”的我们需要训练。因此今天讲的训练和上次的SFT微调还不一样,今天讲授的是没有一问、一答这种格式的而转变成一大段一大段的真正的行业知识把它烧进一个LLM,其实相当于制作一个“行业LLM”,在此我们依旧使用的是Qwen3:0.6b。

什么是预训练什么是指令式微调

预训练和指令微调是大语言模型训练的两个关键阶段,它们在目标、数据形式和应用场景上有

相关文章:

  • ElasticSearch操作
  • 边缘计算是什么?逻辑视域下的边缘计算:分布式计算范式的理论基础与逻辑结构分析
  • 二分算法的补充说明
  • TMP1827认证流程
  • 从法律视角看湖北理元理律师事务所的债务优化实践
  • 数据结构与算法-线性表-双向链表(Double Linked List)
  • C++ 中的 **常变量** 与 **宏变量** 比较
  • 25.5.22学习总结
  • window 显示驱动开发-指定 GDI 硬件加速渲染操作
  • Python-标准库
  • 浅谈测试驱动开发TDD
  • 微服务架构的演变过程
  • 关于大语言模型的问答?
  • spring boot启动报错:2002 - Can‘t connect to server on ‘192.168.10.212‘ (10061)
  • 咬合配准算法文献推荐
  • 电子电路:为什么会产生电流超前或者滞后于电压的情况?
  • CUDA 加速的稀疏矩阵计算库cuSPARSE
  • 数据库blog5_数据库软件架构介绍(以Mysql为例)
  • P22:LSTM-火灾温度预测
  • Python实现矩阵转置:原理与实践
  • 动效做的好的网站/最近的新闻事件
  • 高质量的集团网站建设/营销方案案例
  • wordpress slider 插件/家庭优化大师免费下载
  • wordpress居中/开鲁网站seo转接
  • 个人做营利性质网站会怎么样/免费制作网页的网站
  • 苏州公司网站建站/软文