当前位置：首页 > news >正文

探索LoSA：动态低秩稀疏自适应——大模型高效微调的新突破

news 2025/11/6 6:43:07

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

1 引言：大模型微调的效率挑战与LoSA的应运而生

随着大语言模型（LLMs）的参数规模扩展到万亿级别，全参数微调的计算成本已变得令人望而却步 😨。参数高效微调（PEFT）方法应运而生，其中LoRA（Low-Rank Adaptation） 因其出色的性能与效率平衡而备受关注。然而，传统的LoRA方法在处理稀疏大语言模型时面临两大挑战：无法将微调后的LoRA权重无缝整合到稀疏模型中，以及在较高稀疏率下性能恢复不足。

针对这些挑战，厦门大学媒体分析与计算实验室在ICLR 2025上提出了LoSA（Dynamic Low-Rank Sparse Adaptation）——一种创新的动态低秩稀疏自适应方法 🚀。LoSA在统一框架内将低秩矩阵无缝融入稀疏大语言模型中，显著提升了稀疏LLM的性能而不增加推理延迟。实验表明，LoSA能在数小时内有效降低稀疏模型困惑度，提升零样本精度，同时在CPU和GPU上均能实现推理加速。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

20.SparseLoRA技术详解：基于动态稀疏性的大模型高效微调方法
19.LIFT：基于低秩引导的稀疏微调
18.微软SPARTA框架：高效稀疏注意力机制详解
17.差分隐私随机梯度下降（DP-SGD）详解
16.差分隐私：机器学习和数据发布中的隐私守护神
15.FSDP（Fully Sharded Data Parallel）全分片数据并行详解
14.Megatron-LM张量并行详解：原理、实现与应用
13.BPE（Byte Pair Encoding）详解：从基础原理到现代NLP应用
12.LayerNorm（层归一化）详解：原理、实现与应用
11.MinHashLSH 详解：高维数据相似性搜索与去重的关键技术
10.Jaccard相似度：集合相似性的经典度量
9.HOSVD（高阶奇异值分解）：高维数据的“解剖术”
8.分布式奇异值分解（SVD）详解
7.LSA（潜在语义分析）：原理、实现与应用
6.Netflix Prize竞赛：推荐系统的里程碑与机器学习革命的催化剂
5.雅可比SVD算法：高精度矩阵分解的经典方法
4.随机SVD：大规模矩阵分解的高效算法
3.QR算法：矩阵特征值计算的基石
2.Householder变换：线性代数中的镜像反射器
1.Frobenius范数：矩阵分析的万能度量尺

2 LoSA技术深度解析

2.1 核心思想：当低秩适应遇见稀疏化

LoSA的技术根基源于对低秩结构和稀疏性的协同利用。传统LoRA方法基于一个关键观察：Transformer模型中的权重更新矩阵具有低秩特性。然而，当模型已经进行过稀疏化处理（例如通过剪枝得到稀疏模型）后，直接应用LoRA会遇到严重问题——微调后的低秩矩阵难以无缝整合到稀疏权重中。

LoSA的创新之处在于提出了动态稀疏化低秩矩阵的机制。在微调过程中，LoSA根据相应的稀疏权重对低秩矩阵进行动态稀疏化，从而确保训练后低秩矩阵能够完美融入稀疏大语言模型。这一机制如同为稀疏模型量身定做了一件"合身的外衣"，而不是简单套用标准尺寸。

具体来说，LoSA将微调过程形式化为以下优化问题：在保持原始稀疏权重不变的前提下，学习一个动态稀疏化的低秩适应矩阵，使得整体模型在目标任务上表现最优，同时不破坏原有的稀疏结构，保证推理效率不受影响。

2.2 动态稀疏化机制

LoSA的核心技术在于其动态稀疏化机制。与传统静态方法不同，LoSA在训练过程中会根据各层的重要性动态调整低秩矩阵的稀疏模式 🌊。

层次重要性评估是这一机制的关键。LoSA利用表征互信息作为指标来确定各层的重要性，在微调过程中高效地确定各层的稀疏率。互信息在这里衡量的是每一层激活值与最终输出之间的统计依赖性，依赖性越强的层被认为对任务性能越重要，因而分配更低的稀疏率（保留更多参数）。

具体实现中，LoSA采用以下步骤：

前向传播计算各层激活值
估计每层激活与模型输出的互信息
根据互信息值排序，确定层间稀疏率分配
基于分配的稀疏率，对每层的低秩矩阵进行动态掩码

数学上，这一过程可以表示为：
$Sparsityl=1−MI(Al,Y)∑i=1LMI(Ai,Y)×(1−GlobalSparsity)\text{Sparsity}_l = 1 - \frac{MI(A_l, Y)}{\sum_{i=1}^{L} MI(A_i, Y)} \times (1 - \text{GlobalSparsity})$
其中 $MI(A_l, Y)$ 表示第l层激活与输出Y之间的互信息， $GlobalSparsity\text{GlobalSparsity}$ 是全局目标稀疏率。

2.3 自适应秩调整策略

除了动态稀疏化，LoSA还引入了自适应秩调整策略。LoSA根据各层重构误差的变化调整低秩矩阵的秩，为每一层分配适当的微调参数，以减少原始模型和稀疏模型之间的输出差异。

这一策略的聪明之处在于认识到：不同层对模型性能的贡献是不均衡的，因此为所有层分配相同的秩（如传统LoRA那样）是次优的。有些层需要更高的秩来捕捉复杂的任务特征，而有些层只需较低秩就能充分适应。

LoSA的秩调整过程如下：

初始阶段，为每层分配一个基础秩
定期评估每层重构误差的变化（与原始稠密模型的输出差异）
根据误差变化比例调整各层的秩：误差下降缓慢的层增加秩，误差已充分下降的层减少秩
确保总体参数预算不变或受控

这种动态资源分配机制使得LoSA在相同参数预算下，能够实现比固定秩分配方法更好的性能表现。

2.4 与传统方法的对比

为了更直观展示LoSA的优势，以下是LoSA与相关技术的对比：

表：LoSA与相关技术对比

特性	标准LoRA	稀疏微调	LoSA（我们的）
稀疏兼容性	差 ❌	优 ✅	优 ✅
参数效率	中等	高	高
推理加速	无	有	有 🚀
动态适应	无	有限	有 🌊
秩灵活性	固定	不适用	自适应调整