当前位置：首页 > news >正文

High Rank Adaption系列文章

news 2025/10/31 8:45:21

High Rank Adaption

0. 符号

符号	说明
$A, B$	低秩因子矩阵（HiRA、LoRA等方法中）
$A^{(i)}(r_i,i_i)$	TERA中因子矩阵，第 $i$ 个因子矩阵的第 $r_i,i_i)$ 个元素
$\in \mathbb{R}^{n \times n}$	HyperAdapt中的行缩放对角矩阵
$Aij∈R(r/b)×(n/b)A_{ij} \in \mathbb{R}^{(r/b) \times (n/b)}$	BHRA中第 $(i, j)$ 个子块的低秩因子矩阵
$\in \mathbb{R}^{m \times m}$	HyperAdapt中的列缩放对角矩阵
$Bij∈R(m/b)×(r/b)B_{ij} \in \mathbb{R}^{(m/b) \times (r/b)}$	BHRA中第 $(i, j)$ 个子块的低秩因子矩阵
$B_1, A_1, B_2, A_2$	ABBA中的低秩因子矩阵
$b$	BHRA中的分块数（ $\times b$ 个块）
$C_{ij} = B_{ij} A_{ij}$	BHRA中的块内低秩乘积（局部容量因子）
$CBHRAC_{\text{BHRA}}$	BHRA中的容量张量（块矩阵）
$d$	DiaBlo中每个子块的维度（假设 $\cdot d$ ）；MORA中大模型的维度参数
$d^{(i)}(r_i)$	TERA中的对角线缩放向量，第 $i$ 个缩放向量的第 $r_i$ 个元素
$d1=m1N,d2=m2Nd_1 = \frac{m_1}{N}, d_2 = \frac{m_2}{N}$	DiaBlo中子块的维度参数
$dind_{\text{in}}$	输入维度（与 $m$ 一致）
$doutd_{\text{out}}$	输出维度
$D$	DiaBlo中的块对角适配矩阵
$Di∈Rd×dD_i \in \mathbb{R}^{d \times d}$	DiaBlo中第 $i$ 个对角块的更新矩阵
$F$	QWHA中可训练的稀疏系数矩阵
$fcompf_{\text{comp}}$	MORA中的压缩算子
$fdecompf_{\text{decomp}}$	MORA中的解压算子
$h$	前向传播的输出（KRAdapter、MORA等）
$H$	QWHA中的Walsh–Hadamard变换矩阵（WHT），仅含±1，满足 $H^T H = I$
$H^{-1}$	$H$ 的逆矩阵（QWHA中）
$H^T$	$H$ 的转置矩阵（QWHA中）
$I$	单位矩阵
$K$	HD-PiSSA中的设备数量
$k, k_1, k_2$	KRAdapter中矩阵 $U 、 V$ 的行维度；MORA中大模型的维度参数
$m$	矩阵的行维度（与 $dind_{\text{in}}$ 一致，如 $W0∈Rm×nW_0 \in \mathbb{R}^{m \times n}$ ）
$M$	MORA中替代LoRA的 $A 、 B$ 的正方形矩阵
$N$	DiaBlo中块矩阵的划分数量（ $\times N$ 个块）；RELoRA中的更新轮数；TERA中张量的维度数
$n$	矩阵的列维度（如 $W0∈Rm×nW_0 \in \mathbb{R}^{m \times n}$ ）
$np=⌊np⌋n_p = \lfloor n p \rfloor$	LoSiA中输出神经元子集大小
$\in (0,1]$	LoSiA中子集大小比例参数
$r$	低秩因子的秩（HiRA中 $\cdot B$ 的秩）；总秩预算（BHRA中）；LoRA的秩（MORA中）；PiSSA中选取的最大奇异值数量
$r0=rank(W0)r_0 = \text{rank}(W_0)$	$W_0$ 的秩
$r1=rank(B1A1)r_1 = \text{rank}(B_1 A_1)$	ABBA中 $B_1 A_1$ 的秩
$r2=rank(B2A2)r_2 = \text{rank}(B_2 A_2)$	ABBA中 $B_2 A_2$ 的秩
$r_i$	DiaBlo中第 $i$ 个块 $D_i$ 的秩
$rblock=r/br_{\text{block}} = r / b$	BHRA中的块内秩预算
$R_i$	TERA中核心张量第 $i$ 维的维度
$r^=⌊(d+k)r⌋\hat{r} = \lfloor \sqrt{(d + k)r} \rfloor$	MORA中压缩后的维度
$S$	LoSiA中神经元子集（ $SinS_{\text{in}}$ 为输入子集， $SoutS_{\text{out}}$ 为输出子集）
$S_r$	PiSSA中前 $r$ 个奇异值组成的对角矩阵
$s$	RELoRA中的缩放因子
$sABBAs_{\text{ABBA}}$	ABBA中的缩放因子
$V^\top$	奇异值分解（SVD）的左、右奇异向量矩阵（ $\cdot S \cdot V^\top$ ）
$U_r$	PiSSA中对应前 $r$ 个奇异值的左奇异向量矩阵
$\in \mathbb{R}^{k_1 \times d_{\text{in}}}, V \in \mathbb{R}^{k_2 \times d_{\text{in}}}$	KRAdapter中的矩阵
$u_{ij}$	KRAdapter中矩阵 $U$ 的第 $i$ 行第 $j$ 列元素
$vj∈Rk2v_j \in \mathbb{R}^{k_2}$	KRAdapter中矩阵 $V$ 的第 $j$ 列向量
$Vr⊤V_r^\top$	PiSSA中对应前 $r$ 个奇异值的右奇异向量矩阵
$W$	预训练权重矩阵（DiaBlo、PiSSA等）
$W_0$	预训练权重矩阵（冻结权重，HiRA、BHRA等）
$W^{'}$	微调后的最终参数矩阵（HiRA、HyperAdapt等）
$W_{0,ij}$	BHRA中 $W_0$ 的第 $(i, j)$ 个子块
$W_{ij}$	DiaBlo中 $W$ 的第 $(i, j)$ 个子块， $Wij∈Rd×dW_{ij} \in \mathbb{R}^{d \times d}$
$Wfinetuned=W+DW_{\text{finetuned}} = W + D$	DiaBlo中微调后的权重矩阵
$W_A^k, W_B^k$	RELoRA中第 $k$ 轮的低秩因子矩阵
$W_i^{(0)}, W_i^{(T_N)}$	RELoRA中第 $i$ 层初始权重和第 $N$ 轮后权重
$WS=W[Sout,Sin]∈Rnp×mpW_S = W[S_{\text{out}}, S_{\text{in}}] \in \mathbb{R}^{n_p \times m_p}$	LoSiA中更新的子矩阵
$x$	输入向量（KRAdapter、MORA等）
$α\alpha$	KRAdapter中的缩放因子
$ΔW\Delta W$	权重更新矩阵（HyperAdapt、QWHA、RELoRA等）
$ΔWABBA\Delta W_{\text{ABBA}}$	ABBA的权重更新量
$ΔWBHRA\Delta W_{\text{BHRA}}$	BHRA的权重更新矩阵
$ΔWBHRA,ij\Delta W_{\text{BHRA},ij}$	$ΔWBHRA\Delta W_{\text{BHRA}}$ 的第 $(i, j)$ 个子块
$ΔWHiRA\Delta W_{\text{HiRA}}$	HiRA的权重更新矩阵
$ΔWMoRA\Delta W_{\text{MoRA}}$	MoRA的权重更新矩阵
$ΔW\Delta \mathcal{W}$	TERA中张量化的权重更新矩阵
$δWt\delta W^t$ （ $t = 1, 2, ..., N$ ）	RELoRA中第 $t$ 轮的低秩更新
$⌊⋅⌋\lfloor \cdot \rfloor$	向下取整符号
$∘\circ$	Hadamard积（元素级乘积，HiRA中）
$⊙\odot$	Hadamard积（元素级乘积，ABBA中）；Khatri-Rao乘积（列向克罗内克乘积，KRAdapter中）
$□\square$	BHRA中的块wise Hadamard积（逐块执行Hadamard积）
$∑\sum$	求和符号
$rank(⋅)\text{rank}(\cdot)$	矩阵的秩
$Ra×b\mathbb{R}^{a \times b}$	维度为 $\times b$ 的实数矩阵空间
$min⁡(a,b)\min(a,b)$	$a$ 和 $b$ 中的最小值
$G(r1,r2,…,rN)\mathcal{G}(r_1,r_2,\dots,r_N)$	TERA中的核心张量
$Unfold[N;k](ΔW)\text{Unfold}_{[N;k]}(\Delta \mathcal{W})$	TERA中将张量化的权重更新矩阵转化为矩阵的操作

1. HiRA

原理

HiRA 的更新矩阵：

$\Delta W_{\text{HiRA}} = W_0 \circ (A \cdot B)$

此时，微调后最终参数矩阵为：

$W_0 + \Delta W_{\text{HiRA}} = W_0 + W_0 \circ (A \cdot B)$

秩分析

根据 Hadamard 积的秩上界，对 $ΔWHiRA\Delta W_{\text{HiRA}}$ 做秩分析：

$\text{Rank}(\Delta W_{\text{HiRA}}) = \text{Rank}(W_0 \circ (A \cdot B)) \leq \text{Rank}(W_0) \times \text{Rank}(A \cdot B) \leq r_0 \times r$

劣势

HiRA的更新量依赖 $W_0$ 的元素值：若目标更新 $ΔWtarget=diag(W0)\Delta W_{\text{target}} = \text{diag}(W_0)$ （ $W_0$ 的对角矩阵），则需 $\approx I$ （单位矩阵），但低秩矩阵难以准确表示正交结构的单位矩阵。此外，若 $rank(ΔWtarget/W0)≥rank(ΔWtarget)\text{rank}(\Delta W_{\text{target}} / W_0) \geq \text{rank}(\Delta W_{\text{target}})$ ，HiRA的重构误差与LoRA一致，无实际优势。

2. ABBA

原理

ABBA的权重更新量为：
$\Delta W_{\text{ABBA}} = s_{\text{ABBA}} \cdot (B_1 A_1) \odot (B_2 A_2)$
初始化：

$B_1 A_1$ 初始化使用奇异值分解得到的矩阵

$B_2 A_2$ 初始化使用LoRA初始化方法

秩分析

ABBA的有效秩由哈达玛积的秩性质决定：

设 $rank(B1A1)=r1\text{rank}(B_1 A_1) = r_1$ 、 $rank(B2A2)=r2\text{rank}(B_2 A_2) = r_2$ ，则 $rank((B1A1)⊙(B2A2))≤r1⋅r2\text{rank}((B_1 A_1) \odot (B_2 A_2)) \leq r_1 \cdot r_2$ （同HiRA的秩性质）。

当 $r_1 = r_2 = r/2$ 时，ABBA的有效秩上限为 $r/2 \cdot (r/2) = r^2/4$ ，远高于LoRA的 $r$

3. BHRA

原理

BHRA首先对冻结权重矩阵 $W_0$ 进行均匀分块（文档假设 $m / b$ 、 $n / b$ 为整数，非均匀分块可推广）：
将 $W0∈Rm×nW_0 \in \mathbb{R}^{m \times n}$ 划分为 $\times b$ 个不重叠子块，每个子块的维度为 $m/b \times (n/b)$ ，第 $(i, j)$ 个子块记为 $W_{0,ij}$ 。

分块后满足块矩阵重构关系：
$W_0 = \begin{bmatrix} W_{0,11} & W_{0,12} & \cdots & W_{0,1b} \\ W_{0,21} & W_{0,22} & \cdots & W_{0,2b} \\ \vdots & \vdots & \ddots & \vdots \\ W_{0,b1} & W_{0,b2} & \cdots & W_{0,bb} \end{bmatrix}$
对每个子块 $W_{0,ij}$ ，BHRA独立分配一对低秩因子 $B_{ij}$ 和 $A_{ij}$ ，其维度由“总秩预算 $r$ 均匀分配”决定：

块内秩预算： $rblock=r/br_{\text{block}} = r / b$ （总秩 $r$ 按行分块数 $b$ 平均分配，确保总秩不变）；
低秩因子维度（公式5）：
$B_{ij} \in \mathbb{R}^{(m/b) \times (r/b)}, \quad A_{ij} \in \mathbb{R}^{(r/b) \times (n/b)} \tag{5}$
块内低秩乘积（局部容量因子）： $C_{ij} = B_{ij} A_{ij}$ ，由LoRA低秩约束可知 $rank(Cij)≤r/b\text{rank}(C_{ij}) \leq r/b$ 。

将所有块内低秩乘积 $C_{ij}$ 按 $W_0$ 的分块结构排列，构成容量张量（定义为块矩阵，公式6）：
$C_{\text{BHRA}} = \begin{bmatrix} C_{11} & C_{12} & \cdots & C_{1b} \\ C_{21} & C_{22} & \cdots & C_{2b} \\ \vdots & \vdots & \ddots & \vdots \\ C_{b1} & C_{b2} & \cdots & C_{bb} \end{bmatrix} \in \mathbb{R}^{m \times n} \tag{6}$
BHRA的权重更新通过块wise Hadamard积（ $□\square$ ）实现：将容量张量 $CBHRAC_{\text{BHRA}}$ 与冻结权重矩阵 $W_0$ 在对应子块内执行元素级Hadamard积，公式（公式7）：
$\Delta W_{\text{BHRA}} = C_{\text{BHRA}} \square W_0 \tag{7}$

需特别注意块wise Hadamard积的严格定义：对任意 $i, j$ ， $ΔWBHRA\Delta W_{\text{BHRA}}$ 的第 $(i, j)$ 子块满足：
$\Delta W_{\text{BHRA},ij} = C_{ij} \odot W_{0,ij}$
即“逐块执行Hadamard积，块间无交互”——这是BHRA与HiRA“全局Hadamard积”的核心区别（HiRA的 $ΔWHiRA=W0⊙(BA)\Delta W_{\text{HiRA}} = W_0 \odot (BA)$ 是全局元素积，所有元素依赖 $W_0$ 的全局模式）。

秩分析

对 $\times b$ 分块的BHRA，其权重更新 $ΔWBHRA=CBHRA□W0\Delta W_{\text{BHRA}} = C_{\text{BHRA}} \square W_0$ 的秩满足：
$\text{rank}(\Delta W_{\text{BHRA}}) \leq b r_0 r \tag{8}$
其中 $r0=rank(W0)r_0 = \text{rank}(W_0)$ ， $b$ 为分块数， $r$ 为总秩预算。

4. HyperAdapt

原理

预训练权重矩阵通常为满秩，且在预训练阶段已编码了许多有用的方向。若我们能高效地对这些现有方向进行重新加权，而非引入新方向，就能以极少的参数开销实现高秩更新。

于是对预权重通过行 / 列缩放得到新权重矩阵

$ΔW=AW0B−W0\Delta W = AW_0B-W_0$

其中, $\in \mathbb{R}^{n \times n}$ 和 $\in \mathbb{R}^{m \times m}$ 为对角矩阵。
$\begin{aligned} W' &= W_0 + \Delta W, \\ &= W_0 + A W_0 B - W_0, \\ &= A W_0 B. \end{aligned}$

秩分析

理论HyperAdapt 权重更新矩阵的秩上界：
$\mathrm{rank}(\Delta W) \leq \min\!\bigl(2\cdot\mathrm{rank}(W_0),\;n,\;m\bigr)$
实际秩上界：

实际实验发现，HyperAdapt 动用的有效正交方向越接近 $W_0$ 的秩上限，即实现了 “高秩更新”。

优势

HyperAdapt 通过对角矩阵行 / 列缩放实现权重更新，对维度为 $n \times m$ 的预训练权重矩阵 $W 0$ ，仅需训练 $n + m$ 个可训练参数.

HyperAdapt 突破了 LoRA 等低秩方法的 “低秩约束”，实现了受约束的高秩更新，且同时兼顾参数效率。

缺点

适用范围受限，仅针对 Transformer 语言模型，未扩展至其他领域

权重更新形式固定，依赖对角缩放，灵活性弱于 LoRA

5. DiaBlo

原理

DiaBlo 通过直接更新模型权重矩阵的对角块实现适配

设预训练模型中的某一权重矩阵为 $\in \mathbb{R}^{m \times n}$ （例如Transformer中的注意力权重或前馈网络权重）。DiaBlo将 $W$ 划分为 $\times N$ 的块矩阵：
$\begin{pmatrix} W_{11} & W_{12} & \dots & W_{1N} \\ W_{21} & W_{22} & \dots & W_{2N} \\ \vdots & \vdots & \ddots & \vdots \\ W_{N1} & W_{N2} & \dots & W_{NN} \end{pmatrix}$
其中，每个子块 $Wij∈Rd×dW_{ij} \in \mathbb{R}^{d \times d}$ （假设 $\cdot d$ ，即方阵且均匀分块；非方阵时可类似分块）。

DiaBlo的核心策略是：仅更新对角块 $W_{ii}$ （ $i = 1, 2, ..., N$ ），冻结所有非对角块 $W_{ij}$ （ $\neq j$ ）。

DiaBlo引入一个块对角适配矩阵 $D$ 来表示对角块的更新量，其结构为：
$\begin{pmatrix} D_1 & 0 & \dots & 0 \\ 0 & D_2 & \dots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & D_N \end{pmatrix}$
其中， $Di∈Rd×dD_i \in \mathbb{R}^{d \times d}$ 是可训练的对角块更新矩阵（初始化为0矩阵），非对角位置为0（即不更新非对角块）。

微调过程中，模型实际使用的权重矩阵为预训练权重与适配矩阵的和：
$W_{\text{finetuned}} = W + D$
即仅对角块 $W_{ii}$ 被更新为 $W_{ii} + D_i$ ，非对角块保持预训练状态 $W_{ij}$ （ $\neq j$ ）。

秩分析

原文无秩推导，现理论推导如下：

DiaBlo 的适配矩阵 $D$ 是块对角矩阵，其秩等于各对角块秩之和。
设第 $i$ 个块为 $D_i$ ，秩为 $r_i$ ，则有：

$rank⁡(D)=∑i=1Nri≤N⋅min⁡(d1,d2)\operatorname{rank}(D) = \sum_{i=1}^{N} r_i \le N \cdot \min(d_1, d_2)$

其中

$N$ ：对角块数量
$d1=m1Nd_1 = \frac{m_1}{N}$ ， $d2=m2Nd_2 = \frac{m_2}{N}$

优势

训练更稳定，无需依赖定制化初始化 / 优化策略

劣势

适用模态有限，暂未验证非语言模型

理论基础薄弱，对角块更新的有效性缺乏深层解释

参数效率的 “上限” 可能低于LoRA

6. HD-PISSA

原理

PiSSA（Principal Singular Values and Singular Vectors Adaptation）改进了 LoRA 的初始化策略，利用预训练权重的 主奇异成分 初始化适配器，提升收敛速度和性能。

首先对原始权重 $W$ 做奇异值分解（SVD）：
$\cdot S \cdot V^\top$
PiSSA 选择 $S$ 中 前 $r$ 个最大奇异值 及其对应奇异向量，初始化适配器 ( A, B )：

$U_r \cdot S_r^{1/2}, \quad B = S_r^{1/2} \cdot V_r^\top$

HD-PiSSA（High-Rank Distributed PiSSA）核心逻辑是：在 $K$ 个设备上分配 正交的主成分适配器，聚合各设备的更新量直接作用于原始权重 $W$ ，无需维护多设备残差矩阵。

秩分析

方法	适配器初始化范围	设备间适配器关系	有效更新秩上限
PiSSA	前 $r$ 个主成分	完全相同（同构）	$r$
HD-PiSSA	前 $\cdot r$ 个主成分	正交（异构）	$2K \cdot r$

优势

分布式训练的内存高效性

劣势

依赖分布式硬件环境；由于要计算权重的奇异值分解，预处理成本增加

7. LOSIA

原理

LoSiA（Low-cost Sparse Incremental Adaptation） 是一种稀疏高秩参数高效微调方法，目标是在保持计算与存储低成本的前提下，获得接近全量微调（full fine-tune）的表现，不去约束更新矩阵为低秩，而是从原权重矩阵中选取一部分神经元子集进行激活与训练，通过子网激活的方式隐式实现高秩更新。

对每层权重矩阵 $\in \mathbb{R}^{n\times m}$ ：
LoSiA 选取输入神经元子集 $Sin⊆[m]S_{\text{in}} \subseteq [m]$ 和输出神经元子集 $Sout⊆[n]S_{\text{out}} \subseteq [n]$ 。
子集大小由比例参数 $\in (0,1]$ 决定：
$n_p = \lfloor n p \rfloor, \quad m_p = \lfloor m p \rfloor$
仅更新子矩阵
$W_S = W[S_{\text{out}}, S_{\text{in}}] \in \mathbb{R}^{n_p \times m_p}$
而其余参数保持冻结。
训练过程中周期性重选子网（subnet resampling），形成时间上的多子空间覆盖，使得长期累积效果接近全量训练。

秩分析

LoSiA 的最大秩

子矩阵 $WS∈Rnp×mpW_S \in \mathbb{R}^{n_p\times m_p}$ 的秩上界为其行列最小值：
$\operatorname{rank}(W_S) \le \min(n_p, m_p)$

由于 $n_p = n p$ 、 $m_p = m p$ （取整略去），
$\operatorname{rank}_{\text{LoSiA}}^{\max} \approx p \min(n,m)$

8. KRAdapter

原理

借助Khatri-Rao 乘积（列向克罗内克乘积） 构建权重更新矩阵。

设两个矩阵 $\in \mathbb{R}^{k_1 \times d_{in}}$ 和 $\in \mathbb{R}^{k_2 \times d_{in}}$ ,二者的 Khatri-Rao 乘积记为 $\odot V$ ，定义为按列进行 Kronecker 乘积组合的矩阵。

更形式化地，若 $[u_{11} \ u_{12} \ \dots \ u_{1,d_{in}}; \ \vdots \ ; \ u_{k_1,1} \ u_{k_1,2} \ \dots \ u_{k_1,d_{in}}]$ （第 $i$ 行第 $j$ 列为 $u_{ij}$ ）， $[v_1 \ v_2 \ \dots \ v_{d_{in}}]$ （第 $j$ 列为 $vj∈Rk2v_j \in \mathbb{R}^{k_2}$ ），则：
$\odot V = \begin{bmatrix} u_{11}v_1 & u_{12}v_2 & \dots & u_{1,d_{in}}v_{d_{in}} \\ \vdots & \vdots & \ddots & \vdots \\ u_{k_1,1}v_1 & u_{k_1,2}v_2 & \dots & u_{k_1,d_{in}}v_{d_{in}} \end{bmatrix} \in \mathbb{R}^{(k_1 k_2) \times d_{in}} \quad \text{}$

KRAdapter 的权重更新定义为 $ΔW=α(U⊙V)\Delta W = \alpha (U \odot V)$ ，其中 $α\alpha$ 仍为缩放因子

结合预训练权重 $W_0$ ，KRAdapter 适配后的线性层前向传播公式为：
$\left( W_0 + \alpha U \odot V \right) x \quad \text{}$

秩分析

文章中证明了Khatri-Rao 乘积的满列秩性质
定理陈述：设 $\in \mathbb{R}^{k \times d_{in}}$ 和 $\in \mathbb{R}^{k \times d_{in}}$ （简化为 $k_1 = k_2 = k$ ），满足 $\leq d_{in} \leq k^2$ ，且 $U$ 、 $V$ 的元素独立同分布（i.i.d.）于标准高斯分布 $N(0,1)\mathcal{N}(0,1)$ 或区间 $[−δ,δ][-\delta, \delta]$ （ $δ>0\delta > 0$ ）的均匀分布，则 Khatri-Rao 乘积 $\odot VA$ 几乎必然 $a l m os t s u re l y$ 满列秩，即
$\text{rank}(U \odot V) = d_{in}$

9. TERA

原理

TeRA的核心创新是：用类塔克分解的张量网络参数化 $ΔW\Delta \mathcal{W}$ ，通过“冻结大部分参数+训练小向量”实现“高秩更新+参数高效”。

先把权重更新矩阵张量化，之后把该张量进行塔克类结构表示：

TeRA对 $ΔW\Delta \mathcal{W}$ 的参数化遵循“核心张量→对角线缩放→因子矩阵映射”的逻辑，其元素值定义为：
$\begin{aligned} \Delta \mathcal{W}(i_1,i_2,\dots,i_N) &= \sum_{r_1=1}^{R_1} \sum_{r_2=1}^{R_2} \dots \sum_{r_N=1}^{R_N} \mathcal{G}(r_1,r_2,\dots,r_N) \\ &\quad \times d^{(1)}(r_1) d^{(2)}(r_2) \dots d^{(N)}(r_N) \\ &\quad \times A^{(1)}(r_1,i_1) A^{(2)}(r_2,i_2) \dots A^{(N)}(r_N,i_N) \end{aligned}$
仅训练对角线缩放向量 $d^{(i)}$ ,之后把张量化的权重更新矩阵再次转化为矩阵 $ΔW\Delta W$ 。

秩分析

论文中证明了如下结论：

设 $ΔW=Unfold[N;k](ΔW)\Delta W = \text{Unfold}_{[N;k]}(\Delta \mathcal{W})$ （ $ΔW\Delta \mathcal{W}$ 矩阵化后的权重更新矩阵），则：
$\text{rank}(\Delta W) \leq \min\left( \prod_{i=1}^k R_i, \prod_{i=k+1}^N R_i \right)$

当 $R_i = I_i$ （核心张量维度等于原张量维度）时， $rank(ΔW)≤min⁡(m,n)\text{rank}(\Delta W) \leq \min(m,n)$ ，即 $ΔW\Delta W$ 可实现满秩更新。

10. QWHA

原理

同时解决两类效率问题：

量化（Quantization）带来的精度下降；
PEFT（Parameter-Efficient Fine-Tuning）带来的低秩限制。

适配器的权重更新定义为：

$\Delta W = F H^{-1}$

$H$ ：固定的 Walsh–Hadamard 变换矩阵（WHT），仅含 ±1，满足 ( H^T H = I )。
$F$ ：可训练的稀疏系数矩阵，由少量非零值组成。
$H^{-1}$ 对应快速加减操作

这与传统 LoRA 相对比，是高秩稀疏表示。

秩分析

理论上限

由 $ΔW=FH−1\Delta W = F H^{-1}$ ， $H^{-1}$ 为满秩正交矩阵，
所以秩仅取决于 $F$ ：
$\operatorname{rank}(\Delta W) = \operatorname{rank}(F)$

若 $F$ 为随机稀疏矩阵，且每行/列平均非零数 ≥ 2（即 $k, l \geq 2$ ），则根据稀疏矩阵理论（Coja-Oghlan et al., 2020）：

当 $\to \infty$ 时， $F$ 以高概率为满秩。

因此：
$\operatorname{rank}_{\mathrm{QWHA}} \approx \min(d_{\text{in}}, d_{\text{out}})$

即 几乎满秩（full-rank）。

11. MORA

原理

用“正方形矩阵 $M$ ”替代LoRA的两个低秩矩阵 $A, B$ ，在参数数量与LoRA相等的前提下，最大化 $rank(ΔWMoRA)\text{rank}(\Delta W_{\text{MoRA}})$

MoRA需通过压缩/解压算子适配 $M$ 与 $W_0$ 的维度，前向传播公式为：
$W_0 x + f_{\text{decomp}} \left( M \cdot f_{\text{comp}} (x) \right)$
（先压缩 $x$ 至 $r^\hat{r}$ 维，输入 $M$ 计算，再解压至 $d$ 维，与 $W_0 x$ 叠加）。

秩分析

文章中证明了MoRA的 $ΔWMoRA\Delta W_{\text{MoRA}}$ 由 $M$ 通过压缩/解压算子转换得到，其秩满足 $rank(ΔWMoRA)≤r^\text{rank}(\Delta W_{\text{MoRA}}) \leq \hat{r}$ （因 $M$ 的秩≤ $r^\hat{r}$ ）。

其中 $r^=⌊(d+k)r⌋\hat{r} = \lfloor \sqrt{(d + k)r} \rfloor$ ，且大模型中 $d, k$ 通常极大（如 $d = k = 4096$ ），因此 $r^≫r\hat{r} \gg r$ （ $r$ 为LoRA的秩）。

12. RELoRA

原理

通过多轮独立的低秩更新（ $δW1,δW2,...,δWN\delta W^1, \delta W^2, ..., \delta W^N$ ），其总和（ $ΔW=∑t=1NδWt\Delta W = \sum_{t=1}^N \delta W^t$ ）可实现远高于单轮低秩的总秩，最终逼近全秩矩阵的表达能力。

主权重的总更新量为各周期低秩更新之和：
$\Delta W = W_i^{(T_N)} - W_i^{(0)} = s \cdot \sum_{k=1}^N W_A^k \cdot W_B^k$
ReLoRA的核心公式：总更新量是多轮低秩更新的聚合

秩分析

由秩的次可加性，总更新量的秩满足：
$\text{rank}(\Delta W) = \text{rank}\left(s \sum_{k=1}^N W_A^k W_B^k\right) \leq \sum_{k=1}^N \text{rank}(W_A^k W_B^k) \leq N \cdot r$
若各周期的 $W_A^k W_B^k$ 子空间独立（由Kaiming初始化保证），则等号成立：
$\text{rank}(\Delta W) = N \cdot r$