当前位置: 首页 > news >正文

LORA的AB矩阵是针对Transformer的多头还是MLP

LORA的AB矩阵是针对Transformer的多头还是MLP

Transformer中的矩阵是一个整体还是分开的每个小矩阵

在LORA(Low-Rank Adaptation)中,AB矩阵的应用位置和Transformer中的矩阵拆分方式如下:

1. LORA的AB矩阵作用对象

LORA的AB矩阵主要作用于Transformer的多头注意力模块MLP模块的线性层。具体来说:

  • 多头注意力部分:AB矩阵通常注入到查询(Q)、键(K)、值(V)的线性变换层中,以低秩分解的形式近似原始权重矩阵。
  • MLP部分:AB矩阵也可注入到MLP的**输入层(将隐层维度映射到中间维度)输出层(映射回隐层维度)**中。

相关文章:

  • 台式机电脑组装---电脑机箱与主板接线
  • 线程池的拒绝策略适用场景思考
  • 网络编程套接字【端口号/TCPUDP/网络字节序/socket编程接口/UDPTCP网络实验】
  • 双曲空间学习记录
  • TypeScript Symbols 深度解析:在 Vue3 中的高级应用实践
  • 人脸识别-检测数据集
  • C++ :顶层const与底层const的区别
  • 【Linux网络(三)】网络基础套接字
  • 【CXX-Qt】1.5 使用CMake构建
  • 《深入理解AOP编程:从基础概念到Spring实现》
  • C++中std::shuffle 的使用
  • MySQL 多列 IN 查询详解:语法、性能与实战技巧
  • 当 Selenium 的 click() /send_keys()等方法失效时:JavaScript 在 UI 自动化测试中的神奇用法
  • 工作记录 2017-02-06
  • gitlab 提交pr
  • 搭建Nginx
  • springboot第三站(1) web开发引入
  • Docker下载,包含Win、Mac
  • The test of the entire book_《Effective Modern C++》notes
  • Spring Boot集成PageHelper:轻松实现数据库分页功能
  • A股低开高走全线上涨:军工股再度领涨,两市成交12934亿元
  • 东亚社会的“苦难诗学”:从《苦尽柑来遇见你》说起
  • 李云泽:再批复600亿元,进一步扩大保险资金长期投资试点范围
  • 城事|五一长假,哪里人最多?
  • 玉渊谭天丨是自保还是自残?八个恶果透视美国征收100%电影关税
  • 五一假期上海境外来沪消费4.55亿元,同比增长211.6%