当前位置：首页 > news >正文

大模型微调（面经总结）

news 2025/7/16 19:57:22

目录

一、LORA篇
- 1、介绍一下Lora的原理
- 2、LoRA 是为了解决什么问题提出的？哪些模型适合用 LoRA 微调？什么是低秩分解？
- - - **低秩分解：用小矩阵逼近大矩阵**
- 3、LoRA初始化

一、LORA篇

1、介绍一下Lora的原理

LoRA 是一种参数高效微调方法，其核心思想是将原始权重矩阵的更新限制在一个低秩空间内，从而显著减少训练参数量。
不同于传统微调，LoRA 将权重的更新项 $\Delta W$ 表示为两个低秩矩阵 $\in \mathbb{R}^{r \times d}$ 和 $\in \mathbb{R}^{d \times r}$ 的乘积：
$\Delta W = W + BA$
训练阶段只更新两个低秩矩阵 $A$ 和 $B$ ，原始模型权重 $W$ 保持不变；

2、LoRA 是为了解决什么问题提出的？哪些模型适合用 LoRA 微调？什么是低秩分解？

LoRA 的核心目标：降低大模型微调成本 参数量从 $O(d^2)$ → $O (r d)$
适合含大量线性层的 Transformer 架构模型 比如注意力模块的 Q/K/V 投影矩阵、FFN前馈神经网络等

低秩分解：用小矩阵逼近大矩阵

定义：低秩分解是将高维矩阵近似为两个低维矩阵的乘积，以降低表示复杂度。
数学形式：对于 $\times d$ 的高维矩阵 $W$ ，找到两个低维矩阵 $\in \mathbb{R}^{r \times d}$ 和 $\in \mathbb{R}^{d \times r}$ 的乘积，使得：

$\approx BA$

(A) 是 降维矩阵：将原始 $d$ 维空间映射到 $r$ 维子空间（提取关键特征）。
(B) 是 升维矩阵：将 $r$ 维特征恢复到 $d$ 维空间（重构原始空间的更新）。
优势：通过仅优化 (A) 和 (B) 的 $2 r d$ 个参数（远小于 $d^2$ ），即可近似表达 (W) 的主要变化，大幅减少计算量。

3、LoRA初始化

LoRA 的初始化通常遵循以下原则：

原始模型权重 W 不变

LoRA 的矩阵：

$A$ 通常使用正态分布初始化：nn.Linear(..., bias=False) 默认初始化
$B$ 通常初始化为 全零矩阵，这样一开始 $\Delta W = B A = 0$ ，模型输出不会被扰动，保证收敛稳定性

文章转载自：
http://cataplastic.dxwdwl.cn
http://aeonian.dxwdwl.cn
http://acathisia.dxwdwl.cn
http://bloat.dxwdwl.cn
http://byob.dxwdwl.cn
http://barterer.dxwdwl.cn
http://chandlery.dxwdwl.cn
http://brazier.dxwdwl.cn
http://cavil.dxwdwl.cn
http://barococo.dxwdwl.cn
http://allegorist.dxwdwl.cn
http://beseech.dxwdwl.cn
http://centralism.dxwdwl.cn
http://bowline.dxwdwl.cn
http://chaffing.dxwdwl.cn
http://boggle.dxwdwl.cn
http://ammonal.dxwdwl.cn
http://caecum.dxwdwl.cn
http://canonship.dxwdwl.cn
http://algology.dxwdwl.cn
http://beld.dxwdwl.cn
http://aminophylline.dxwdwl.cn
http://amniote.dxwdwl.cn
http://chronaxie.dxwdwl.cn
http://armoured.dxwdwl.cn
http://bindle.dxwdwl.cn
http://alpaca.dxwdwl.cn
http://aliesterase.dxwdwl.cn
http://bromine.dxwdwl.cn
http://abscondee.dxwdwl.cn

http://www.dtcms.com/a/216675.html

相关文章：

Linux编译器——gcc/g++的使用

实时数仓和离线数仓的区别是什么？企业如何选择合适的数仓架构？

华为云Flexus+DeepSeek征文｜ModelArts Studio开通DeepSeek-V3与R1商用服务实践与体验

Playwright 常用命令、参数详解及使用示例

springboot调用redis数据库，操作字符串

Java基础打卡-集合2025.05.22

Oracle20200714GI_PSU补丁流程及问题收集

[yolov11改进系列]基于yolov11引入全维度动态卷积ODConv的python源码+训练源码

Java 反射机制深度解析：从原理到实战应用

【25-cv-05791】Aro de luz 摄影灯具商标维权案

端口 3389 服务 ms - wbt - server 漏洞修复方法

2025年渗透测试面试题总结-匿名[实习]安全技术研究员（题目+回答）

AI提示工程(Prompt Engineering)高级技巧详解

被忽视的 App 安全入口：资源文件暴露问题与 iOS 混淆实战（含 Ipa Guard 应用经验）

打卡day38

Elasticsearch创建快照仓库报错处理

【深度学习】9. CNN性能提升-轻量化模型专辑：SqueezeNet / MobileNet / ShuffleNet / EfficientNet

力扣热题——分类求和并作差

Java实现加解密和通信安全

C++11 -- 右值引用和移动语义

python多进程

在 C++ 中，当回调函数是类的成员函数时，this指针的指向由调用该成员函数的对象决定

4.8.5 利用Spark SQL统计网站每月访问量

MySQL事务机制介绍

Fastdata极数：中国公路跑步赛事白皮书2025

演示：基于WPF开发的带有切换动画效果的登录和注册页面

【Agent】MLGym: A New Framework and Benchmark for Advancing AI Research Agents

初识 ProtoBuf

攻防世界-你猜猜

JDK21深度解密 Day 7：FFM与VarHandle底层剖析