当前位置: 首页 > news >正文

大模型微调(面经总结)

目录

  • 一、LORA篇
    • 1、介绍一下Lora的原理
    • 2、LoRA 是为了解决什么问题提出的?哪些模型适合用 LoRA 微调?什么是低秩分解?
        • **低秩分解:用小矩阵逼近大矩阵**
    • 3、LoRA初始化

一、LORA篇

1、介绍一下Lora的原理

LoRA 是一种参数高效微调方法,其核心思想是将原始权重矩阵的更新限制在一个低秩空间内,从而显著减少训练参数量。
不同于传统微调,LoRA 将权重的更新项 Δ W \Delta W ΔW 表示为两个低秩矩阵 A ∈ R r × d A \in \mathbb{R}^{r \times d} ARr×d B ∈ R d × r B \in \mathbb{R}^{d \times r} BRd×r 的乘积:
W ′ = W + Δ W = W + B A W' = W + \Delta W = W + BA W=W+ΔW=W+BA
训练阶段只更新两个低秩矩阵 A A A B B B ,原始模型权重 W W W 保持不变;

2、LoRA 是为了解决什么问题提出的?哪些模型适合用 LoRA 微调?什么是低秩分解?

  • LoRA 的核心目标:降低大模型微调成本 参数量从 O ( d 2 ) O(d^2) O(d2) O ( r d ) O(rd) O(rd)
  • 适合含大量线性层的 Transformer 架构模型 比如注意力模块的 Q/K/V 投影矩阵、FFN前馈神经网络
低秩分解:用小矩阵逼近大矩阵

定义:低秩分解是将高维矩阵近似为两个低维矩阵的乘积,以降低表示复杂度。
数学形式:对于 d × d d \times d d×d 的高维矩阵 W W W,找到两个低维矩阵 A ∈ R r × d A \in \mathbb{R}^{r \times d} ARr×d B ∈ R d × r B \in \mathbb{R}^{d \times r} BRd×r 的乘积,使得:

W ≈ B A W \approx BA WBA

  • (A) 是 降维矩阵:将原始 d d d 维空间映射到 r r r 维子空间(提取关键特征)。
  • (B) 是 升维矩阵:将 $r$ 维特征恢复到 d d d 维空间(重构原始空间的更新)。
  • 优势:通过仅优化 (A) 和 (B) 的 2 r d 2rd 2rd 个参数(远小于 d 2 d^2 d2),即可近似表达 (W) 的主要变化,大幅减少计算量。

3、LoRA初始化

LoRA 的初始化通常遵循以下原则:

  • 原始模型权重 W 不变

  • LoRA 的矩阵:

    • A A A 通常使用正态分布初始化:nn.Linear(..., bias=False) 默认初始化
    • B B B 通常初始化为 全零矩阵,这样一开始 Δ W = B A = 0 \Delta W = B A = 0 ΔW=BA=0,模型输出不会被扰动,保证收敛稳定性

文章转载自:
http://cataplastic.dxwdwl.cn
http://aeonian.dxwdwl.cn
http://acathisia.dxwdwl.cn
http://bloat.dxwdwl.cn
http://byob.dxwdwl.cn
http://barterer.dxwdwl.cn
http://chandlery.dxwdwl.cn
http://brazier.dxwdwl.cn
http://cavil.dxwdwl.cn
http://barococo.dxwdwl.cn
http://allegorist.dxwdwl.cn
http://beseech.dxwdwl.cn
http://centralism.dxwdwl.cn
http://bowline.dxwdwl.cn
http://chaffing.dxwdwl.cn
http://boggle.dxwdwl.cn
http://ammonal.dxwdwl.cn
http://caecum.dxwdwl.cn
http://canonship.dxwdwl.cn
http://algology.dxwdwl.cn
http://beld.dxwdwl.cn
http://aminophylline.dxwdwl.cn
http://amniote.dxwdwl.cn
http://chronaxie.dxwdwl.cn
http://armoured.dxwdwl.cn
http://bindle.dxwdwl.cn
http://alpaca.dxwdwl.cn
http://aliesterase.dxwdwl.cn
http://bromine.dxwdwl.cn
http://abscondee.dxwdwl.cn
http://www.dtcms.com/a/216675.html

相关文章:

  • Linux编译器——gcc/g++的使用
  • 实时数仓和离线数仓的区别是什么?企业如何选择合适的数仓架构?
  • 华为云Flexus+DeepSeek征文|ModelArts Studio开通DeepSeek-V3与R1商用服务实践与体验
  • Playwright 常用命令、参数详解及使用示例
  • springboot调用redis数据库,操作字符串
  • Java基础打卡-集合2025.05.22
  • Oracle20200714GI_PSU补丁流程及问题收集
  • [yolov11改进系列]基于yolov11引入全维度动态卷积ODConv的python源码+训练源码
  • Java 反射机制深度解析:从原理到实战应用
  • 【25-cv-05791】Aro de luz 摄影灯具商标维权案
  • 端口 3389 服务 ms - wbt - server 漏洞修复方法
  • 2025年渗透测试面试题总结-匿名[实习]安全技术研究员(题目+回答)
  • AI提示工程(Prompt Engineering)高级技巧详解
  • 被忽视的 App 安全入口:资源文件暴露问题与 iOS 混淆实战(含 Ipa Guard 应用经验)
  • 打卡day38
  • Elasticsearch创建快照仓库报错处理
  • 【深度学习】9. CNN性能提升-轻量化模型专辑:SqueezeNet / MobileNet / ShuffleNet / EfficientNet
  • 力扣热题——分类求和并作差
  • Java实现加解密和通信安全
  • C++11 -- 右值引用和移动语义
  • python多进程
  • 在 C++ 中,当回调函数是类的成员函数时,this指针的指向由调用该成员函数的对象决定
  • 4.8.5 利用Spark SQL统计网站每月访问量
  • MySQL事务机制介绍
  • Fastdata极数:中国公路跑步赛事白皮书2025
  • 演示:基于WPF开发的带有切换动画效果的登录和注册页面
  • 【Agent】MLGym: A New Framework and Benchmark for Advancing AI Research Agents
  • 初识 ProtoBuf
  • 攻防世界-你猜猜
  • JDK21深度解密 Day 7:FFM与VarHandle底层剖析