当前位置: 首页 > news >正文

LoRA,DoRA,RSLoRA,LoRA+ 是什么

LoRA,DoRA,RSLoRA,LoRA+ 是什么

在这里插入图片描述

一、LoRA(Low-Rank Adaptation,低秩适应)

核心原理:冻结预训练模型参数,仅在每层插入两个低秩矩阵(A∈R^{r×d}, B∈R^{d×r}),通过分解权重增量ΔW=BA近似全秩更新,参数量仅为全量微调的0.01%-1%。
举例:在GPT-2(774M参数)的注意力层,原权重矩阵W_q∈R^{768×768}。LoRA设置秩r=8,仅训练A(768×8)和B(8×768),参数量从768²=589k→768×8×2=12k(压缩49倍)。训练时,实际计算为xW_q + xAB(即ΔW=AB),推理时合并AB为ΔW与原W_q相加,无额外计算开销。

http://www.dtcms.com/a/64758.html

相关文章:

  • STM32外部中断
  • 复现 MoGe
  • 计算机网络:Socket编程 Tcp协议 第二弹
  • 传智杯-省赛-第二场(B组)题解
  • 限制数据库字段长度的公用写法:length和like和rlike对于限制字段长度的原理与区别
  • 【技海登峰】Kafka漫谈系列(九)SpringBoot整合Kafka多数据源配置
  • BFS最短路径(十六)127. 单词接龙 困难
  • 爬虫案例十四js逆向中国五矿
  • 2.库函数的模拟实现
  • ES怎么通过客户端操作和查询/curl操作指令
  • DeepBI驱动的动态预算与库存联动调整策略
  • 当AI回答问题时,它的“大脑”里在炒什么菜?
  • LoRa无线通讯边缘网关-EG2000-数据上云和远程组网
  • Android电量与流量优化
  • npm、pnpm、cnpm、yarn、npx之间的区别
  • 我的创作纪念日:730天的技术写作之旅
  • 11 | 给 Gin 服务器添加中间件
  • 晨控CK-FR08与汇川H5U系列PLC配置EtherNet/IP通讯连接手册
  • 六、OpenGL中EBO的使用及本质
  • 【Godot4.3】斜抛运动轨迹曲线点求取函数
  • 时间序列模型(1):LSTNet
  • 解决ubuntu(jetpack)系统下系统盘存储不够的
  • MongoDB备份与还原
  • 2025年第十届数维杯大学生数学建模挑战赛参赛规则
  • Windows根据文件名批量在文件夹里查找文件并复制出来,用WPF实现的详细步骤
  • 29.代码随想录算法训练营第二十九天|134. 加油站,135. 分发糖果,860. 柠檬水找零,406. 根据身高重建队列
  • [rust] rust学习
  • 【C语言系列】字符函数和字符串函数
  • QT:串口上位机
  • 电脑神器,轻松超越系统自带!