当前位置：首页 > news >正文

AI Agent开发第73课-预训练qwen3-如何加入自己的语料

news 2025/7/11 17:58:57

开篇

前面一篇《教授训练本地带思维链模式的模型》我们从头到底讲述了利用llama-factory以SFT的方式微调一个模型，让模型在回答“你是谁”时，可以回答我们指定的内容，并在最后我们把训练好的模型“烧成”可以运行在ollama里的模型的全部过程。

有了前一篇的知识，今天我们来讲，如何把本企业的内部知识库如：员工手册、退货流程或者一些达半年都不太变动的“固定”知识“烧”进Qwen3里。如之前篇章里说到过的：经常变动的、实时变动的我们要用RAG，而需要写入“DNA”的我们需要训练。因此今天讲的训练和上次的SFT微调还不一样，今天讲授的是没有一问、一答这种格式的而转变成一大段一大段的真正的行业知识把它烧进一个LLM，其实相当于制作一个“行业LLM”，在此我们依旧使用的是Qwen3:0.6b。

什么是预训练什么是指令式微调

预训练和指令微调是大语言模型训练的两个关键阶段，它们在目标、数据形式和应用场景上有

http://www.dtcms.com/a/206800.html

相关文章：

ElasticSearch操作

边缘计算是什么？逻辑视域下的边缘计算：分布式计算范式的理论基础与逻辑结构分析

二分算法的补充说明

TMP1827认证流程

从法律视角看湖北理元理律师事务所的债务优化实践

数据结构与算法-线性表-双向链表（Double Linked List）

C++ 中的 **常变量** 与 **宏变量** 比较

25.5.22学习总结

window 显示驱动开发-指定 GDI 硬件加速渲染操作

Python-标准库

浅谈测试驱动开发TDD

微服务架构的演变过程

关于大语言模型的问答？

spring boot启动报错：2002 - Can‘t connect to server on ‘192.168.10.212‘ (10061)

咬合配准算法文献推荐

电子电路：为什么会产生电流超前或者滞后于电压的情况？

CUDA 加速的稀疏矩阵计算库cuSPARSE

数据库blog5_数据库软件架构介绍（以Mysql为例）

P22:LSTM-火灾温度预测

Python实现矩阵转置：原理与实践

《JVM G1 源码分析和调优》笔记

Linux 玩转nfs

【TTS回顾】CosyVoice 深度解析：基于LLM的TTS模型

C语言if-else分支结构中的类似短路现象

C++：关联式容器map容器，multimap容器

系统与账户安全

3 tomcat原理

【RAG】ragflow源码亮点：文档embedding向量化加权融合

MapReduce-Top N程序编写与运行

自学嵌入式 day22 -数据结构栈队列