大模型 LoRA
一 背景
1.随着大模型的发展,模型的参数越来越大,有的参数是十亿乃至千亿,如此大的参数,我们要进行微调,是比较困难。原因如果我们训练时候添加我们自己场景的数据后,模型原有的能力会变的很差,如果想保留原来的能力,训练也很困难。所以大佬们提出了一个方法 LoRA,可以满足原来的能力,又可以比较简单的进行微调。
二 原理
1.数学知识
回顾一下数学知识,什么是秩,矩阵秩分为行秩,列秩,行秩表示矩阵的线性无关的行的个数,列同理。在机器学习中,我们使用一个全连接,我们计算这个矩阵的秩,就能确定那些特征是重要的。我们可以用一个低维度近似表示高维度的矩阵。我们可以在原始的矩阵空间中,使用少数的维度组合,就能捕捉大部分信息。
数学公式 : h = W0x + ∆W x = W0x + BAx
公式中,W0表示预训练模型参数,X表示输入数据。∆W表示新的权重,我们需要训练的。新的权重我们可以拆分为两个矩阵A和B,为啥要拆分为两个矩阵了,原因是减少参数,一个为升维矩阵,一个降维矩阵。
2.算法流程
当我们微调时候,我们不更新预训练权重,我们去更新∆W,然后把∆W更新好的权重直接和原始预训练权重相加。在推理时候,不会参数额外延时。
3举例说明
假设我们预训练权重大小是 1000 * 1000 的矩阵,我们的A矩阵可以是1000 * 4, B矩阵可以是4 * 1000 ,根据矩阵的乘法A*B最终的矩阵大小是 1000 * 1000 ,然后和原始的矩阵相加。就这样完成了我们微调,思想就是这样的。
三 代码复现
import numpy as np
import torch
import math
input_dim = 1000
output_dim = 1000
rank = 4
W = torch.randn(input_dim, output_dim)
W_A = torch.nn.Parameter(torch.empty(input_dim, rank))
W_B = torch.nn.Parameter(torch.empty(rank, input_dim))
W_A = torch.nn.init.kaiming_uniform(W_A, a=math.sqrt(5))
W_B = torch.nn.init.zeros_(W_B)
def lora_forward(x, W, W_A, W_B):
h = x @ W
h += x @ (W_A @ W_B) * alpha
return h
其中W_B初始化为0,是因为刚开始,不想变化太大,应该一步一来,W_A初始化为高斯分布,比较好收敛。