当前位置: 首页 > news >正文

面试篇 - LoRA(Low-Rank Adaptation) 原理

1. 问题背景

大模型微调的挑战
预训练模型(如GPT-3、LLaMA)参数量巨大(数十亿至万亿级),直接微调所有参数:

  • 计算开销大:需更新全部权重,GPU显存不足。

  • 存储冗余:每个任务需保存独立的全量模型副本。

2. LoRA的核心思想

3. 参数初始化策略

矩阵初始化方法目的
A随机高斯分布(均值为0)打破对称性,提供多样化的梯度方向,避免所有神经元学习相同特征。
B全零初始化确保训练开始时 ΔW=0ΔW=0,模型行为与预训练一致,稳定训练。

 

为什么矩阵B初始化为零?

核心目标:训练稳定性
  • 初始状态一致性
    微调开始时,保证模型行为与预训练模型完全一致:

    • 类比:如同汽车改装,先保持原厂配置(W),再逐步加装新部件(ΔW),避免直接飙车失控。

避免的问题
  1. 性能突变
    若初始 ΔW≠0,模型可能立即偏离预训练学到的知识(如GPT-3突然忘记如何造句)。

  2. 梯度爆炸
    随机初始化的 A 和 B 乘积可能产生数值不稳定的梯度。

实验支持
  • 论文实验显示:零初始化 BB 可使初始损失与预训练模型相差不足0.1%,而非零初始化可能差50%+。

为什么矩阵A随机初始化?

核心目标:探索多样性
  • 打破对称性
    随机高斯初始化(如PyTorch默认的Kaiming初始化)确保:

       

 联合作用机制

训练动态示例

类比说明
  • B=0B=0:如同汽车油门初始置零,确保启动时不突然加速。

  • AA随机:如同方向盘初始角度各异,确保车辆可灵活转向不同方向。

4. 为什么有效?

(1) 内在低秩性(Intrinsic Low-Rankness)
  • 理论依据:大模型的权重变化矩阵 ΔWΔW 通常是低秩的(少数主成分主导变化)。

  • 实验验证:在Transformer中,仅调整 r=8 的LoRA即可接近全参数微调效果。

(2) 参数效率
  • 参数量对比

(3) 任务切换便捷性
  • 不同任务只需替换轻量的 AA 和 BB(几MB),共享同一预训练模型 WW。

5. 实际应用示例

(1) Hugging Face PEFT库实现
from peft import LoraConfig, get_peft_modelconfig = LoraConfig(r=8,                      # 秩lora_alpha=16,            # 缩放因子 αtarget_modules=["q", "v"], # 应用于Query和Value层的LoRAlora_dropout=0.1,
)model = get_peft_model(pretrained_model, config)  # 原始模型参数被冻结
(2) 训练参数量统计
model.print_trainable_parameters()
# 输出示例:trainable params: 262,144 || all params: 6,742,016,000 || trainable%: 0.0039

 LoRA通过低秩分解增量更新,实现了:
✅ 高效微调:仅训练0.1%-1%的参数。
✅ 即插即用:无需修改原始模型架构。
✅ 多任务共享:快速切换任务适配器。

相关文章:

  • 《图像采集与处理技术的研究与洞察》
  • Vue 3 浏览器使用 Composition API
  • 开源模型应用落地-qwen模型小试-Qwen3-8B-快速体验(一)
  • 在 JMeter 中使用 BeanShell 获取 HTTP 请求体中的 JSON 数据
  • 【计算机架构】CISC(复杂指令集计算机)架构
  • 【Science】强耦合手性准BIC驱动动量空间可编程高Q圆偏振激光——哈工大突破拓扑光子学新维度
  • java的多线程
  • [Python]非零基础的快速上手
  • 染色质开放性测序(ATAC-seq)
  • ElasticSearch深入解析(六):集群核心配置
  • MATLAB长方体磁体3D磁力线生成
  • 大数据应用开发和项目实战-matplotlib(二)
  • 区块链密码学核心
  • PDM是什么?PDM有什么用?怎么选PDM?2025制造PDM/PLM系统盘点(4000字)
  • [密码学实战]SDF之非对称运算类函数(三)
  • 软件系统容量管理:反模式剖析与模式应用
  • IF:22.7 InfoMat:一种用于智能假肢的机器学习辅助多功能触觉传感器
  • 全平台开源即时通讯IM框架MobileIMSDK:7端+TCP/UDP/WebSocket协议,鸿蒙NEXT端已发布,5.7K Stars
  • GA-Transformer遗传算法优化编码器多特征分类预测/故障诊断,作者:机器学习之心
  • 百度CarLife实现手机车机无缝互联
  • 新一届中国女排亮相,奥运冠军龚翔宇担任队长
  • 亮剑浦江丨上海网信部门处罚一批医疗服务类互联网企业,三大类问题值得关注
  • 传智教育连续3个交易日跌停:去年净利润由盈转亏
  • 对话|男篮国手杨瀚森:参加NBA选秀,去更大的舞台追梦
  • 一季度煤价持续下探,多家煤炭巨头营收下滑、净利润降约两成
  • 印巴在克什米尔实控线附近小规模交火,巴防长发出“全面战争”警告