当前位置：首页 > news >正文

【大模型】Mamba模型架构

news 2025/7/5 5:50:10

前言：有望替代Transformer进行序列处理的算法框架。

目录

1. 简介
2. 状态空间模型SSMs
3. Mamba

1. 简介

Mamba = 有选择处理信息 + 硬件感知算法 + 更简单的SSM架构
和transformer对比：
请添加图片描述

2. 状态空间模型SSMs

SSM是一种线性模型，具有关联属性。SSM结构如下所示：

在这里插入图片描述

简化表示为：
在这里插入图片描述

其中，A、B、C、D四个矩阵是可学习参数；x(t)是前一个状态

步骤：
（1）核心：
* 状态方程：描述了系统状态随时间的演化
* 输出方程：描述了系统的输出如何依赖于系统状态和控制输入
（2）离散化：将连续的参数离散化处理，零阶保持技术
（3）卷积计算：作为线性系统，离散SSM具有关联属性，因此可以无缝集成到卷积计算中。更具体地说，它可以独立地计算每个时间步的输出。

序列模型区别：
（1）RNNs在非线性递归框架内运作，便于在自回归推理过程中快速输出。
（2）Transformers在多个查询-键对上并行执行矩阵乘法，便于并行训练。
（3）SSMs通过线性属性适应递归和卷积计算，融合了RNNs和Transformers的优势，允许SSMs进行递归推理和并行训练。

传统的时间不变SSM在上下文感知建模方面不足，即A、B、C的静态导致内容感知方面的问题，导致在特定任务中的性能下降：
（1）选择性复制：目标是复制输入的部分内容并按顺序输出它们。由于（循环/卷积）SSM 是线性时间不变的，因此在这项任务中表现不佳。正如我们之前看到的，对于 SSM生成的每个 token，矩阵 A、B 和 C 都是相同的。因此，由于固定的 A、B 和 C 矩阵，SSM 无法执行内容感知推理，因为它对每个 token 都一视同仁。
（2）归纳头：目标是重现输入中发现的模式。由于 SSM 是时间不变的，它无法选择从历史中回忆哪些之前的 token。

3. Mamba

HiPPO：主要为了解决如何在有限的存储空间中有效地解决序列建模的长距离依赖问题。HiPPO 通过函数逼近产生状态矩阵 A 的最优解，有效的解决了长距离依赖问题。

为了解决时间不变SSM的问题，提出了选择性SSM（S6或Mamba）。通过让 SSM 的矩阵 A、B、C 依赖于输入数据，从而实现了选择性。这意味着模型可以根据当前的输入动态地调整其状态，选择性地传播或忽略信息。

由于 A、B、C 都是输入相关了，不再是线性时间不变系统，也就失去了卷积的性质，不能用 FFT来进行高效训练了，Mamba 作者采用了一种称为硬件感知的算法解决这个问题（内核融合，并行扫描，重计算）

http://www.dtcms.com/a/174073.html

相关文章：

k倍区间--线段树60/map+思维100

【ARM】DS-试用授权离线激活

Spring Boot3 实现定时任务每10分钟执行一次，同时要解决分布式的问题区分不同场景

OS7.【Linux】基本指令入门(6)

启发式算法-模拟退火算法

【LLM】Open WebUI 使用指南：详细图文教程

OpenCV 图形API（79）图像与通道拼接函数-----将一个三通道的 GMat 图像拆分为三个单独的单通道 GMat函数split3()

win11 怎样把D盘空间分给C盘一点

微信小程序BLE蓝牙模块断开后无法再次搜索到原来的蓝牙

使用原生 CSS 实现轮播

iPhone或iPad想要远程投屏到Linux系统电脑，要怎么办？

PrimExpr 与 RelayExpr 的区别

unix 详解

R 语言科研绘图第 45 期 --- 桑基图-和弦

共享会议室|物联网解决方案：打造高效、智能的会议空间！

基于深度学习的图像识别技术：从原理到应用

创建简易个人关系图谱（Neo4j ）

神经网络之激活函数：解锁非线性奥秘的关键

第三节：Vben Admin 最新 v5.0 对接后端登录接口(下)

微机控制技术复习【一】

【踩坑记录】项目Bug分析：一次因 `String.isBlank()` 引发的崩溃（No such instance method: ‘isBlank‘）

Java项目部署-Springboot+Vue网页部署上线全教程

解释 RESTful API，以及如何使用它构建 web 应用程序。

常见汇编代码及其指定

破局者手册 Ⅱ：测试开发深度攻坚，引爆质量优化新动能！

StableDiffusionWebUI的AI绘图AI绘视频详细使用教程+报错排坑

Linux Input子系统与驱动开发实战

精益数据分析（44/126）：深度解析媒体网站商业模式的关键要点

信息论03：从信息量到信息熵——如何用数学公式“量化“信息的“模糊度“？

window 显示驱动开发-线程同步和 TDR