当前位置: 首页 > news >正文

lora学习

1.什么是lora

lora是low-rank adaption的意思,即在模型训练时对于Y=X*W,我们会更新W = W + △W,而△W往往是一个较大的矩阵,如果我们只是进行模型微调的话,更新整个△W成本太大,我们可以使用△W=A * B的方式将△W分解为两个较小的矩阵A和B,在训练的时候更新这两个矩阵即可,这样可以减小参数量并达到一个同全参数微调基本相当的效果

2. 为什么lora有效

对于一个矩阵我们可以进行奇异值分解为三个矩阵X=ABC,对于B我们可以只取前r个较大的数据,同时对于A和C对应的维度也变为r,这样三个较小的矩阵相乘得到X2,只要r取的适当,X2可以表示X的绝大部分信息,所以可以通过这种分解的方式使用较小的矩阵来近似表达较大的矩阵,而在lora中我们取消了中间矩阵只用两个矩阵

3.如何使用lora

在反向传播的过程中不使用lora的情况是训练更新△W,使用lora的情况下是训练更新AB

在transformer层中,常常对Q和V的权重矩阵Wq和Wv使用lora分解训练

http://www.dtcms.com/a/605124.html

相关文章:

  • DR模式 LVS负载均衡群集
  • 【计算思维】蓝桥杯STEMA 科技素养考试真题及解析 C
  • openGauss 数据库快速上手评测:从 Docker 安装到SQL 实战
  • ffmpeg离线安装到服务器:解决conda/sudo/无法安装的通用方案
  • 力扣--两数之和(Java)
  • wordpress翻译公司网站吕梁网站制作
  • Lanelet2 OSM数据格式详解
  • 分布式系统保证数据强一致性的示例
  • Spring Boot性能提升的核武器,速度提升500%!
  • SOLIDWORKS 2025设计效率的大幅提高
  • 比标准Json库好用——json-iterator
  • 汇编语言编译器的作用 | 探讨汇编编译器的工作原理和实际应用
  • C语言编译器下载地址与安装指南
  • kanass实战教程系列(4) - 产品经理如何使用kanass有效管理需求
  • RLS(递归最小二乘)算法详解
  • 红色好看的网站济南网络推广软件公司
  • mvcc 简介
  • UniApp 商品分类左右联动技术文档
  • pytest 入门指南:Python 测试框架从零到一(2025 实战版)
  • SpringBoot教程(三十三)| SpringBoot集成MinIO
  • 【开题答辩全过程】以 基于.NET MVC的线上鞋服交易系统设计与实现为例,包含答辩的问题和答案
  • MySQL 全体系深度解析(存储引擎、事务、日志、MVCC、锁、索引、执行计划、复制、调优)
  • SpringMVC基础教程(1)--MVC/DispathcerServlet
  • 在streampark运行paimon-flink-action-1.20.0.jar
  • AI得贤面试智能体:重构企业招聘新范式
  • 硅基计划6.0 陆 JavaEE HttpHttps协议
  • 稳定边界层高度参数化方案的回归建模
  • 企业网站推广方法wap网站预览
  • 可以做推广的门户网站wordpress适合中国的小插件介绍
  • Dubbo服务治理全解析:从零搭建高可用微服务架构