当前位置: 首页 > news >正文

大模型 LoRA

一 背景

1.随着大模型的发展,模型的参数越来越大,有的参数是十亿乃至千亿,如此大的参数,我们要进行微调,是比较困难。原因如果我们训练时候添加我们自己场景的数据后,模型原有的能力会变的很差,如果想保留原来的能力,训练也很困难。所以大佬们提出了一个方法 LoRA,可以满足原来的能力,又可以比较简单的进行微调。

二 原理

1.数学知识

回顾一下数学知识,什么是秩,矩阵秩分为行秩,列秩,行秩表示矩阵的线性无关的行的个数,列同理。在机器学习中,我们使用一个全连接,我们计算这个矩阵的秩,就能确定那些特征是重要的。我们可以用一个低维度近似表示高维度的矩阵。我们可以在原始的矩阵空间中,使用少数的维度组合,就能捕捉大部分信息。
数学公式 : h = W0x + ∆W x = W0x + BAx
公式中,W0表示预训练模型参数,X表示输入数据。∆W表示新的权重,我们需要训练的。新的权重我们可以拆分为两个矩阵A和B,为啥要拆分为两个矩阵了,原因是减少参数,一个为升维矩阵,一个降维矩阵。

2.算法流程

当我们微调时候,我们不更新预训练权重,我们去更新∆W,然后把∆W更新好的权重直接和原始预训练权重相加。在推理时候,不会参数额外延时。
在这里插入图片描述

3举例说明

假设我们预训练权重大小是 1000 * 1000 的矩阵,我们的A矩阵可以是1000 * 4, B矩阵可以是4 * 1000 ,根据矩阵的乘法A*B最终的矩阵大小是 1000 * 1000 ,然后和原始的矩阵相加。就这样完成了我们微调,思想就是这样的。

三 代码复现

import numpy as np
import torch
import math

input_dim  = 1000
output_dim = 1000

rank = 4

W = torch.randn(input_dim, output_dim)
W_A = torch.nn.Parameter(torch.empty(input_dim, rank))
W_B = torch.nn.Parameter(torch.empty(rank, input_dim))

W_A = torch.nn.init.kaiming_uniform(W_A, a=math.sqrt(5))
W_B = torch.nn.init.zeros_(W_B)

def lora_forward(x, W, W_A, W_B):
    h = x @ W
    h += x @ (W_A @ W_B) * alpha
    return h

其中W_B初始化为0,是因为刚开始,不想变化太大,应该一步一来,W_A初始化为高斯分布,比较好收敛。

相关文章:

  • 对WebSocket做一点简单的理解
  • Halcon:HObject与opencv:Mat互转
  • Linux下安装elasticsearch(Elasticsearch 7.17.23)
  • 出现FullGC的排查思路
  • MATLAB程序介绍,三维环境下的IMM(交互式多模型),使用CV和CT模型,EKF作为滤波
  • 如何在web页面下做自动化测试?
  • OCR识别技术在集装箱号码识别中的应用
  • LLM run
  • 利用Postman和Apipost进行API测试的实践与优化-动态参数
  • SpringMvc的设计模式
  • Blazor-全局路由跳转事件
  • 污酸提铼系统提升改造工艺
  • k8s面试题总结(十)
  • TDengine SQL查询语法
  • 基于Spring Boot + Vue的图书个性化推荐系统(LW+PPT)
  • flask实现mvc模式
  • JVM内存结构和各种结构的作用
  • 蓝桥备赛(11)- 数据结构、算法与STL
  • VMware虚拟机中CentOS8系统账户,忘记密码怎么找回
  • [内网安全] Windows 域认证 — Kerberos 协议认证
  • 俄语购物网站建设/简述搜索引擎的工作原理
  • 送网站建设/网络营销策划书3000字
  • 企业宣传网站建设需求说明书的模板/整合营销传播成功案例
  • 网站怎么做百度商桥/江苏疫情最新消息
  • 护肤品网站建设前的行业分析/手机访问另一部手机访问文件
  • 东莞做网站网络公司/百度seo快速排名优化服务