当前位置: 首页 > news >正文

LLM微调笔记

适合自己从零开始看的llm微调知识点

微调相当于用少量特定数据集在预训练模型(如 Qwen、DeepSeek 等)上进一步训练,让模型更贴合新数据集的内容。微调主要分为全量微调和参数高效微调(PEFT),其中 PEFT 中最常用的是 LoRA:其核心是在模型关键层(如注意力层)的高秩权重矩阵中插入两个低秩矩阵(A 和 B),训练时仅更新这两个低秩矩阵的参数(参数量远小于原矩阵,例如原矩阵维度为 d×d 时,低秩矩阵为 d×r 和 r×d,r 远小于 d),以此大幅降低计算成本。微调的策略有多种,最基础的是 SFT(有监督微调),其数据集通常采用指令微调的形式,包含 instruction(指令)、input(输入)和 output(输出),目的是让模型学会遵循指令完成任务。除了 SFT,还有针对偏好优化的方法(如 DPO、GRPO 等),它们不属于传统强化学习,而是通过人类对输出的偏好数据(DPO 处理二元偏好,GRPO 处理多候选排序偏好)直接优化模型,让输出更符合人类期望,常作为 SFT 之后的进阶优化步骤。

http://www.dtcms.com/a/311889.html

相关文章:

  • 泛型(java!java!java!)
  • 大模型大厂面试题及解析
  • 【MATLAB】(四)函数运算
  • “AI+固态”从蓝海愿景变为刚性需求,消费电池老将转身狂奔
  • MySQL中索引失效的常见场景
  • 人工智能之数学基础:离散型随机事件概率(古典概型)
  • 基于 LightGBM 的二手车价格预测
  • TCL --- 列表_part2
  • AAAI赶稿后的心得
  • Google Play下架报告 | 2025年Q2下架16万款App,同比下降86%
  • 自定义picker-view组件
  • IO流中的字节流
  • Java中的sort()排序详解
  • STM32CubeIDE新建项目过程记录备忘(五)中断方式的USART串口通信
  • 浏览器的全局焦点事件
  • 内循环全部满足条件后,为true
  • 大型地面光伏电站开发建设流程
  • IO流-字节流
  • c++--模板--实例化
  • ARM处理器概述及对比
  • 2025熵密杯 -- 初始谜题 -- Reproducibility
  • 基于落霞归雁思维框架的应用与实践研究
  • 计数组合学7.11(RSK算法)
  • Android动画实现控件形状、大小逐渐过渡
  • 智能制造——解读CMMM评估手册【附全文阅读】
  • DyWA:用于可推广的非抓握操作的动态自适应世界动作模型
  • 硅基计划3.0 学习总结 伍 优先级队列排序初识
  • 【Vue3】Class绑定:从基础到高级的完整指南
  • Web前端实现银河粒子流动特效的3种技术方案对比与实践
  • 【完结篇】华为OpenStack架构学习9篇 连载—— 09 OpenStack编排管理【附全文阅读】