当前位置: 首页 > news >正文

【LoRA微调】采用Lora微调时,假设设置的rank值为8,那么在微调时只会调整秩在8以下的矩阵还是只会调整秩等于8的矩阵

在采用 LoRA(Low-Rank Adaptation) 微调时,当设置 rank = r(例如 r=8),实际调整的是两个新引入的小矩阵(维度由 r 决定),而不是直接调整原始权重矩阵中“秩≤8”或“秩=8”的子集。具体原理如下:


LoRA 的核心机制

  1. 冻结原始大模型权重
    设原始大模型的某一层权重矩阵为 W ∈ R^{d×k}(例如 d=4096, k=4096)。
    在微调过程中,W 被冻结(不更新)

  2. 引入低秩分解矩阵
    LoRA 会添加两个可训练的小矩阵:

    • A ∈ R^{d×r}(例如 d=4096, r=8
    • B ∈ R^{r×k}(例如 r=8, k=4096
      这两个矩阵的乘积 BA 是一个低秩矩阵(秩≤r),用于近似权重更新量 ΔW
  3. 前向传播公式
    修改后的前向计算变为:

    h = Wx + (BA)x
    

    其中:

    • Wx:原始冻结权重的输出(固定不变)
    • (BA)x:LoRA 引入的增量(可训练部分)

关于 rank=r 的调整范围

  • 调整的矩阵
    只优化新增的 AB 矩阵(维度由 r 决定),与原始权重 W 的秩无关
  • 秩的意义
    r 是 LoRA 的 超参数,控制增量矩阵 ΔW = BA最大秩(即 BA 的秩不超过 r)。
    例如 r=8 时,ΔW 的秩 ≤8,但实际秩可能更低(取决于训练结果)。

参数更新对比

方法可训练参数数量(示例 d=k=4096调整对象
全参数微调4096×4096 ≈ 16.78M整个 W 矩阵
LoRA (r=8)(4096×8) + (8×4096) = 65,536AB 矩阵

更新量仅为全参数微调的 0.39%(65,536 / 16,780,000),大幅节省显存和计算量。


常见误区澄清

  1. 错误理解
    “LoRA 只调整原始权重 W 中秩≤8的子空间。”
    ✅ 正确解释
    LoRA 完全不调整 W,而是通过低秩矩阵 AB 间接构造增量 ΔW

  2. 错误理解
    r=8 表示强制 ΔW 的秩等于8。”
    ✅ 正确解释
    r=8ΔW最大可能秩(实际秩可能≤8,取决于训练收敛情况)。


为什么低秩更新有效?

根据 内在维度(Intrinsic Dimension) 理论:

大模型在适应下游任务时,权重更新量 ΔW 往往存在于一个低秩子空间中。
即使 r 很小(如8、16),也能有效捕捉任务相关的核心特征。


总结

  • 调整对象:仅新增的 AB 矩阵(维度由 r 和原始权重决定)。
  • 秩的作用r 控制增量矩阵 ΔW = BA 的最大秩,而非筛选原始权重的子集。
  • 优势:显著降低训练开销,同时保持微调效果接近全参数微调。

通过 LoRA,大模型微调从“调整数十亿参数”简化为“优化几万个小矩阵”,是资源敏感场景的首选方案。

http://www.dtcms.com/a/304812.html

相关文章:

  • C++基础:模拟实现queue和stack。底层:适配器
  • openbmc 阈值sensor分析
  • 第二课 P-MOS管应用
  • 洛谷 P11227 [CSP-J 2024] 扑克牌
  • 微算法科技(NASDAQ:MLGO)应用区块链联邦学习(BlockFL)架构,实现数据的安全传输
  • Ika Network 正式发布,让 Sui 智能合约可管理跨链资产
  • 格雷码的应用场景
  • 光环云在2025WAIC联合发布“AI for SME 全球普惠发展倡议”
  • 银行回单识别和发票识别相结合的应用场景及技术方案
  • 20250729-day23
  • 【Mac版】Linux 入门命令行快捷键+联想记忆
  • RDD的checkpoint检查点机制(Checkpoint 与 Persist 的区别)
  • 负载均衡、算法/策略
  • linux实战--日志管理
  • 数字ic后端设计从入门到精通13(含fusion compiler, tcl教学)全定制版图设计
  • 【嵌入式电机控制#17】电流环(四):电流闭环控制
  • 汽车品牌如何用直播“开出去”?从展厅到售后,一站式解决方案
  • 智慧园区系统引领未来:一场科技与生活的完美融合
  • 微信小程序无法构建npm,可能是如下几个原因
  • linux内核报错汇编分析
  • C++学习之继承
  • 【IQA技术专题】纹理相似度图像评价指标DISTS
  • 编写一个markdown文本编辑器工具
  • 7月29号打卡
  • 无需反复登录!当贝AI聚合通义Qwen3-235B等14大模型
  • 大文件的切片上传和断点续传前后端(Vue+node.js)具体实现
  • JetBrains IDE插件开发及发布
  • java导入pdf(携带动态表格,图片,纯java不需要模板)
  • 15K的Go开发岗,坐标北京
  • 第七章 MCP协议