LLM微调笔记
适合自己从零开始看的llm微调知识点
微调相当于用少量特定数据集在预训练模型(如 Qwen、DeepSeek 等)上进一步训练,让模型更贴合新数据集的内容。微调主要分为全量微调和参数高效微调(PEFT),其中 PEFT 中最常用的是 LoRA:其核心是在模型关键层(如注意力层)的高秩权重矩阵中插入两个低秩矩阵(A 和 B),训练时仅更新这两个低秩矩阵的参数(参数量远小于原矩阵,例如原矩阵维度为 d×d 时,低秩矩阵为 d×r 和 r×d,r 远小于 d),以此大幅降低计算成本。微调的策略有多种,最基础的是 SFT(有监督微调),其数据集通常采用指令微调的形式,包含 instruction(指令)、input(输入)和 output(输出),目的是让模型学会遵循指令完成任务。除了 SFT,还有针对偏好优化的方法(如 DPO、GRPO 等),它们不属于传统强化学习,而是通过人类对输出的偏好数据(DPO 处理二元偏好,GRPO 处理多候选排序偏好)直接优化模型,让输出更符合人类期望,常作为 SFT 之后的进阶优化步骤。