当前位置: 首页 > news >正文

(S4)Efficiently Modeling Long Sequences with Structured State Spaces论文精读(逐段解析)

(S4)Efficiently Modeling Long Sequences with Structured State Spaces论文精读(逐段解析)

论文地址:https://arxiv.org/abs/2111.00396

Albert Gu, Karan Goel, and Christopher R´e
斯坦福大学计算机科学系

ICLR 2022

Abstract

A central goal of sequence modeling is designing a single principled model that can address sequence data across a range of modalities and tasks, particularly on long-range dependencies. Although conventional models including RNNs, CNNs, and Transformers have specialized variants for capturing long dependencies, they still struggle to scale to very long sequences of 10000 or more steps. A promising recent approach proposed modeling sequences by simulating the fundamental state space model (SSM) x′(t)=Ax(t)+x^{\prime}(t)=A x(t)+x(t)=Ax(t)+ Bu(t),y(t)=Cx(t)+Du(t)B u(t),y(t)=C x(t)+D u(t)Bu(t),y(t)=Cx(t)+Du(t) , and showed that for appropriate choices of the state matrix AAA , this system could handle long-range dependencies mathematically and empirically. However, this method has prohibitive computation and memory requirements, rendering it infeasible as a general sequence modeling solution. We propose the Structured State Space sequence model (S4) based on a new parameterization for the SSM, and show that it can be computed much more efficiently than prior approaches while preserving their theoretical strengths. Our technique involves conditioning AAA with a low-rank correction, allowing it to be diagonalized stably and reducing the SSM to the well-studied computation of a Cauchy kernel. S4 achieves strong empirical results across a diverse range of established benchmarks, including (i) 91%91\%91% accuracy on sequential CIFAR-10 with no data augmentation or auxiliary losses, on par with a larger 2-D ResNet, (ii) substantially closing the gap to Transformers on image and language modeling tasks, while performing generation 60×60\times60× faster (iii) SoTA on every task from the Long Range Arena benchmark, including solving the challenging Path-X task of length 16k that all prior work fails on, while being as efficient as all competitors.

【翻译】序列建模的核心目标是设计一个统一的原则性模型,能够处理跨越不同模态和任务的序列数据,特别是在长程依赖关系方面。尽管包括RNN、CNN和Transformer在内的传统模型都有专门用于捕获长依赖关系的变体,但它们在扩展到10000步或更长的序列时仍然存在困难。最近一种有前景的方法提出通过模拟基础状态空间模型(SSM) x′(t)=Ax(t)+Bu(t),y(t)=Cx(t)+Du(t)x^{\prime}(t)=A x(t)+B u(t),y(t)=C x(t)+D u(t)x(t)=Ax(t)+Bu(t),y(t)=Cx(t)+Du(t) 来建模序列,并表明对于状态矩阵 AAA 的适当选择,该系统可以在数学上和经验上处理长程依赖关系。然而,这种方法具有令人望而却步的计算和内存需求,使其作为通用序列建模解决方案变得不可行。我们提出了基于SSM新参数化的结构化状态空间序列模型(S4),并表明它可以比先前方法更高效地计算,同时保持其理论优势。我们的技术涉及用低秩校正来调节 AAA,使其能够稳定地对角化,并将SSM简化为经过充分研究的Cauchy核计算。S4在各种既定基准测试中取得了强劲的实证结果,包括(i)在顺序CIFAR-10上达到 91%91\%91% 的准确率,无需数据增强或辅助损失,与更大的2-D ResNet相当,(ii)在图像和语言建模任务上大幅缩小与Transformer的差距,同时生成速度快 60×60\times60×,(iii)在Long Range Arena基准测试的每个任务上都达到了最先进水平,包括解决了长度为16k的具有挑战性的Path-X任务,而所有先前工作都在此任务上失败,同时保持与所有竞争者相同的效率。

【解析】传统的深度学习模型虽然在各自领域表现出色,但都存在一个共同问题:当序列长度超过万步时,性能会急剧下降。这个问题的根源在于长程依赖关系的处理困难。状态空间模型提供了一个数学上优雅的解决方案,通过连续时间动力学系统来建模序列数据。在这个框架中,x′(t)=Ax(t)+Bu(t)x^{\prime}(t)=A x(t)+B u(t)x(t)=Ax(t)+Bu(t) 描述了隐藏状态的演化过程,其中 AAA 是状态转移矩阵,BBB 是输入权重矩阵,而 y(t)=Cx(t)+Du(t)y(t)=C x(t)+D u(t)y(t)=Cx(t)+Du(t) 则将隐藏状态映射到输出。关键洞察是,通过精心设计状态矩阵 AAA,可以让系统具备长期记忆能力。然而,直接实现这种方法会遇到严重的计算瓶颈,因为矩阵运算的复杂度随着状态维度和序列长度呈二次增长。S4的创新在于重新参数化这个系统,将复杂的矩阵 AAA 分解为低秩部分和正规部分的和,然后利用Woodbury恒等式和对角化技术,最终将计算简化为Cauchy核的求值问题。这种方法不仅保持了理论上的优势,还将计算复杂度降低到接近线性,使得处理超长序列成为可能。实验结果验证了这种方法的有效性,在多个具有挑战性的基准测试中都取得了突破性进展。

1 Introduction

A central problem in sequence modeling is efficiently handling data that contains long-range dependencies (LRDs). Real-world time-series data often requires reasoning over tens of thousands of time steps, while few sequence models address even thousands of time steps. For instance, results from the long-range arena (LRA) benchmark [ 40 ] highlight that sequence models today perform poorly on LRD tasks, including one (Path-X) where no model performs better than random guessing.

【翻译】序列建模中的一个核心问题是高效处理包含长程依赖关系(LRDs)的数据。现实世界的时间序列数据通常需要对数万个时间步进行推理,而很少有序列模型能够处理甚至数千个时间步。例如,长程竞技场(LRA)基准测试[40]的结果表明,当今的序列模型在LRD任务上表现不佳,包括一个(Path-X)任务,其中没有模型的表现优于随机猜测。

【解析】这段话点出了序列建模领域的根本挑战。长程依赖关系是指序列中相距很远的元素之间存在重要的关联性,比如一个句子开头的主语可能影响句子结尾的动词形式,或者股票价格的长期趋势可能受到几个月前某个事件的影响。传统的序列模型在处理这种长距离关系时会遇到严重困难,主要原因是随着序列长度增加,模型需要维持的信息量呈指数级增长,而计算复杂度也会急剧上升。Path-X任务是一个特别具有挑战性的基准,它要求模型在长达16384步的序列中追踪路径信息,这种极长的依赖关系使得所有现有模型都无法超越随机猜测的性能水平。

Since LRDs are perhaps the foremost challenge for sequence models, all standard model families such as continuous-time models (CTMs), RNNs, CNNs, and Transformers include many specialized variants designed to address them. Modern examples include orthogonal and Lipschitz RNNs [ 1 , 13 ] to combat vanishing gradients, dilated convolutions to increase context size [ 3 , 28 ], and an increasingly vast family of efficient Transformers that reduce the quadratic dependence on sequence length [ 8 , 22 ]. Despite being designed for LRDs, these solutions still perform poorly on challenging benchmarks such as LRA [ 40 ] or raw audio classification [18].

【翻译】由于LRDs可能是序列模型面临的最重要挑战,所有标准模型族如连续时间模型(CTMs)、RNNs、CNNs和Transformers都包含许多专门设计来解决这些问题的特化变体。现代例子包括正交和Lipschitz RNNs [1, 13]来对抗梯度消失,扩张卷积来增加上下文大小[3, 28],以及越来越庞大的高效Transformer族来减少对序列长度的二次依赖[8, 22]。尽管这些解决方案是为LRDs而设计的,但它们在诸如LRA [40]或原始音频分类[18]等具有挑战性的基准测试上仍然表现不佳。

【解析】这段话说明了学术界为解决长程依赖问题所做的各种努力。正交RNN通过保持权重矩阵的正交性来防止梯度在反向传播过程中消失或爆炸,Lipschitz RNN则通过限制权重矩阵的Lipschitz常数来控制梯度的变化幅度。扩张卷积是一种巧妙的技术,它通过在卷积核中插入空洞来扩大感受野,使得模型能够以较少的参数捕获更长距离的依赖关系。高效Transformer的研究则主要集中在降低自注意力机制的计算复杂度,因为标准Transformer的计算量随序列长度呈二次增长。然而,尽管这些技术在理论上有所改进,但在实际的长序列任务中仍然难以取得突破性进展,这表明需要更根本性的方法创新。

An alternative approach to LRDs was recently introduced based on the state space model (SSM) (Fig. 1). SSMs are a foundational scientific model used in fields such as control theory, computational neuroscience, and many more, but have not been applicable to deep learning for concrete theoretical reasons. In particular, Gu et al. [18] showed that deep SSMs actually struggle even on simple tasks, but can perform exceptionally well when equipped with special state matrices A\pmb{A}A recently derived to solve a problem of continuous-time memorization [ 16 , 45 ]. Their Linear State Space Layer (LSSL) conceptually unifies the strengths of CTM, RNN and CNN models, and provides a proof of concept that deep SSMs can address LRDs in principle.

【翻译】最近引入了一种基于状态空间模型(SSM)的LRDs替代方法(图1)。SSMs是在控制理论、计算神经科学等领域中使用的基础科学模型,但由于具体的理论原因,一直无法应用于深度学习。特别是,Gu等人[18]表明,深度SSMs实际上即使在简单任务上也存在困难,但当配备最近为解决连续时间记忆问题而导出的特殊状态矩阵 A\pmb{A}A [16, 45]时,可以表现得异常出色。他们的线性状态空间层(LSSL)在概念上统一了CTM、RNN和CNN模型的优势,并提供了深度SSMs原则上可以解决LRDs的概念验证。

【解析】状态空间模型是一个来自经典控制理论的数学框架,它通过描述系统内部状态随时间的演化来建模动态系统的行为。在控制理论中,SSM被广泛用于分析和设计反馈控制系统,在计算神经科学中则用于建模神经元的动态响应。然而,将SSM直接应用于深度学习面临着数值稳定性和计算效率的双重挑战。关键突破来自于对状态转移矩阵 A\pmb{A}A 的特殊设计,这些矩阵具有特定的数学性质,能够让系统在理论上保持长期记忆能力。LSSL的重要贡献在于它展示了如何将不同模型架构的优势整合到一个统一的框架中:它具有连续时间模型处理不规则采样数据的能力,RNN的递归计算特性,以及CNN的并行训练优势。

在这里插入图片描述
Figure 1: ( Left ) State Space Models (SSM) parameterized by matrices A,B,C,DA,B,C,DA,B,C,D map an input signal u(t)u(t)u(t) to output y(t)y(t)y(t) through a latent state x(t)x(t)x(t) . ( Center ) Recent theory on continuous-time memorization derives special A\pmb{A}A matrices that allow SSMs to capture LRDs mathematically and empirically. ( Right ) SSMs can be computed either as a recurrence (left) or convolution (right). However, materializing these conceptual views requires utilizing different representations of its parameters ( red , blue , green ) which are very expensive to compute. S4 introduces a novel parameterization that efficiently swaps between these representations, allowing it to handle a wide range of tasks, be efficient at both training and inference, and excel at long sequences.

【翻译】图1:(左)由矩阵 A,B,C,DA,B,C,DA,B,C,D 参数化的状态空间模型(SSM)通过潜在状态 x(t)x(t)x(t) 将输入信号 u(t)u(t)u(t) 映射到输出 y(t)y(t)y(t)。(中)关于连续时间记忆的最新理论导出了特殊的 A\pmb{A}A 矩阵,使SSMs能够在数学上和经验上捕获LRDs。(右)SSMs可以作为递归(左)或卷积(右)进行计算。然而,实现这些概念视图需要利用其参数的不同表示(红色、蓝色、绿色),这些计算成本非常昂贵。S4引入了一种新颖的参数化方法,可以高效地在这些表示之间切换,使其能够处理广泛的任务,在训练和推理时都保持高效,并在长序列上表现出色。

【解析】这个图展示了状态空间模型的核心架构和S4的创新点。SSM的基本结构包含四个关键矩阵:AAA 控制状态的时间演化,BBB 决定输入如何影响状态,CCC 将隐藏状态映射到输出,DDD 提供输入到输出的直接连接。中间部分强调了理论突破的重要性,特殊设计的 A\pmb{A}A 矩阵具有数学上可证明的长期记忆性质。右侧展示了SSM计算的双重性:它既可以像RNN一样递归计算,也可以像CNN一样并行卷积计算。这种双重性本来是一个巨大优势,但问题在于不同计算模式需要不同的参数表示形式,而在这些表示之间转换的计算成本极其昂贵。S4的核心创新就是设计了一种巧妙的参数化方案,使得这种转换变得高效可行,从而真正发挥出SSM的潜力。

Unfortunately, the LSSL is infeasible to use in practice because of prohibitive computation and memory requirements induced by the state representation. For state dimension NNN and sequence length LLL , computing the latent state requires O(N2L)O(N^{2}L)O(N2L) operations and O(NL)O(N L)O(NL) space – compared to a Ω(L+N)\Omega(L+N)Ω(L+N) lower bound for both. Thus for reasonably sized models (e.g. N=256N=256N=256 in Gu et al. [18] ), the LSSL uses orders of magnitude more memory than comparably-sized RNNs or CNNs. Although theoretically efficient algorithms for the LSSL were proposed, we show that these are numerically unstable. In particular, the special A\pmb{A}A matrix is highly non-normal in the linear algebraic sense, which prevents the application of conventional algorithmic techniques. Consequently, although the LSSL showed that SSMs have strong performance, they are currently computationally impractical as a general sequence modeling solution.

【翻译】不幸的是,LSSL在实践中是不可行的,因为状态表示引起的计算和内存需求令人望而却步。对于状态维度 NNN 和序列长度 LLL,计算潜在状态需要 O(N2L)O(N^{2}L)O(N2L) 次操作和 O(NL)O(N L)O(NL) 的空间——相比之下,两者的下界都是 Ω(L+N)\Omega(L+N)Ω(L+N)。因此,对于合理大小的模型(例如Gu等人[18]中的 N=256N=256N=256),LSSL使用的内存比同等大小的RNN或CNN多几个数量级。尽管提出了理论上高效的LSSL算法,但我们表明这些算法在数值上是不稳定的。特别是,特殊的 A\pmb{A}A 矩阵在线性代数意义上是高度非正规的,这阻止了传统算法技术的应用。因此,尽管LSSL表明SSMs具有强大的性能,但它们目前在计算上不适合作为通用序列建模解决方案。

【解析】从计算复杂度角度看,LSSL的时间复杂度是 O(N2L)O(N^{2}L)O(N2L),这说明计算量随着状态维度的平方和序列长度线性增长,而空间复杂度 O(NL)O(NL)O(NL) 说明内存使用量随着状态维度和序列长度的乘积增长。这与理论下界 Ω(L+N)\Omega(L+N)Ω(L+N) 相比存在巨大差距,理论下界表示最优算法至少需要与状态维度和序列长度之和成正比的资源。当状态维度达到256时,这种差距就变得不可接受。更严重的问题是数值稳定性,HiPPO矩阵 A\pmb{A}A 的非正规性质使得传统的矩阵分解和求解技术无法稳定工作。在线性代数中,正规矩阵具有良好的数值性质,可以通过标准算法稳定地进行特征值分解,而非正规矩阵则可能导致数值误差快速累积,使得计算结果不可靠。

In this work, we introduce the Structured State Space (S4) sequence model based on the SSM that solves the critical computational bottleneck in previous work. Technically, S4 reparameterizes the structured state matrices A\pmb{A}A appearing in Gu et al. [16] , Voelker et al. [45] by decomposing them as the sum of a low-rank and normal term. Additionally, instead of expanding the standard SSM in coefficient space, we compute its truncated generating function in frequency space, which can be simplified into a multipole-like evaluation. Combining these two ideas, we show that the low-rank term can be corrected by the Woodbury identity while the normal term can be diagonalized stably, ultimately reducing to a well-studied and theoretically stable Cauchy kernel [ 29 , 30 ]. This results in O~(N+L)\tilde{O}(N+L)O~(N+L) computation and O(N+L)O(N+L)O(N+L) memory usage, which is essentially tight for sequence models. Compared to the LSSL, S4 is up to 30×30\times30× faster with 400 ×\times× less memory usage, while exceeding the LSSL’s performance empirically.

【翻译】在这项工作中,我们引入了基于SSM的结构化状态空间(S4)序列模型,它解决了先前工作中的关键计算瓶颈。从技术上讲,S4通过将Gu等人[16]、Voelker等人[45]中出现的结构化状态矩阵 A\pmb{A}A 分解为低秩项和正规项的和来重新参数化它们。此外,我们不是在系数空间中展开标准SSM,而是在频率空间中计算其截断生成函数,这可以简化为类似多极的求值。结合这两个想法,我们表明低秩项可以通过Woodbury恒等式进行校正,而正规项可以稳定地对角化,最终简化为经过充分研究且理论上稳定的Cauchy核[29, 30]。这导致 O~(N+L)\tilde{O}(N+L)O~(N+L) 的计算量和 O(N+L)O(N+L)O(N+L) 的内存使用量,这对于序列模型来说基本上是紧致的。与LSSL相比,S4的速度提高了30倍,内存使用量减少了400倍,同时在经验上超越了LSSL的性能。

【解析】这段话描述了S4的技术创新。首先是矩阵分解策略,将复杂的HiPPO矩阵 A\pmb{A}A 分解为两部分:低秩部分和正规部分。低秩部分捕获了矩阵的主要结构信息但维度较低,正规部分则具有良好的数值性质。这种分解的巧妙之处在于可以分别处理这两部分:对于低秩部分,使用Woodbury矩阵恒等式来高效处理矩阵求逆运算;对于正规部分,可以安全地进行对角化操作。第二个创新是计算域的转换,从传统的时域系数空间转移到频域,在频域中计算截断生成函数。生成函数是一种强大的数学工具,它将序列的信息编码在一个函数中,而在频域中处理这个函数可以利用快速傅里叶变换等高效算法。最终,整个计算过程归结为求解Cauchy核,这是一个在数值分析中经过深入研究的稳定计算问题。复杂度的改进是显著的:从 O(N2L)O(N^2L)O(N2L) 降低到 O~(N+L)\tilde{O}(N+L)O~(N+L),其中波浪号表示忽略对数因子,这个复杂度已经接近理论最优。

Empirically, S4 significantly advances the state-of-the-art for LRD. On the LRA benchmark for efficient sequence models, S4 is as fast as all baselines while outperforming them by 20+20+20+ points on average. S4 is the first model to solve the difficult LRA Path-X task (length-16384), achieving 88%88\%88% accuracy compared to 50%{\bf50\%}50% random guessing for all prior work. On speech classification with length-16000 sequences, S4 halves the test error (1 . 7%) of specialized Speech CNNs – by contrast, all RNN and Transformer baselines fail to learn ( ≥70%\ge70\%70% error).

【翻译】在经验上,S4显著推进了LRD的最先进水平。在高效序列模型的LRA基准测试中,S4与所有基线一样快,同时平均超越它们20多个点。S4是第一个解决困难的LRA Path-X任务(长度16384)的模型,达到了88%的准确率,而所有先前工作都只能达到50%的随机猜测水平。在长度为16000的序列语音分类任务上,S4将专门的语音CNN的测试错误率减半(1.7%)——相比之下,所有RNN和Transformer基线都无法学习(≥70%错误率)。

【解析】这段话展示了S4在实际应用中的突破性表现。LRA基准测试是评估长序列建模能力的权威测试集,S4在保持计算效率的同时大幅提升了性能。Path-X任务是一个特别具有挑战性的测试,它要求模型在长达16384步的序列中追踪复杂的路径信息,这种极长的依赖关系此前让所有模型都束手无策,只能达到随机猜测的50%准确率。S4达到88%的准确率说明它真正具备了处理超长依赖关系的能力。在语音分类任务中,16000步的序列长度对应约1秒的音频信号,这种长度的序列包含了丰富的时序信息和长程依赖关系。S4将错误率从专门设计的语音CNN的3.4%降低到1.7%,而传统的RNN和Transformer模型在这种长序列上完全失效,错误率高达70%以上,这说明它们无法有效学习长程依赖关系。

Towards a general-purpose sequence model. Beyond LRD, a broad goal of machine learning is to develop a single model that can be used across a wide range of problems. Models today are typically specialized to solve problems from a particular domain (e.g. images, audio, text, time-series), and enable a narrow range of capabilities (e.g. efficient training, fast generation, handling irregularly sampled data). This specialization is typically expressed via domain-specific preprocessing, inductive biases, and architectures. Sequence models provide a general framework for solving many of these problems with reduced specialization – e.g. Vision Transformers for image classification with less 2D information [ 12 ]. However, most models such as Transformers generally still require substantial specialization per task to achieve high performance.

【翻译】迈向通用序列模型。除了LRD之外,机器学习的一个广泛目标是开发一个可以在广泛问题范围内使用的单一模型。当今的模型通常专门用于解决特定领域的问题(例如图像、音频、文本、时间序列),并支持有限的能力范围(例如高效训练、快速生成、处理不规则采样数据)。这种专业化通常通过特定领域的预处理、归纳偏置和架构来表达。序列模型为解决许多这些问题提供了一个通用框架,减少了专业化需求——例如用于图像分类的Vision Transformers使用更少的2D信息[12]。然而,大多数模型如Transformers通常仍然需要针对每个任务进行大量专业化才能实现高性能。

【解析】目前的深度学习模型大多采用"专门化"策略,即针对特定类型的数据和任务设计专门的架构。比如卷积神经网络专门处理图像数据,循环神经网络专门处理序列数据,每种模型都有其特定的归纳偏置和架构设计。这种专门化虽然在各自领域内效果显著,但也带来了模型碎片化的问题,需要为不同任务维护不同的模型架构。序列建模提供了一个更统一的视角,因为许多不同类型的数据都可以被视为序列:图像可以看作像素序列,音频是采样点序列,文本是词汇序列。Vision Transformer的成功就是这种统一思路的典型例子,它将图像分割成patch序列,然后用Transformer处理,虽然丢失了一些2D空间信息,但仍然取得了优秀的性能。然而,即使是Transformer这样相对通用的架构,在实际应用中仍然需要针对不同任务进行大量的架构调整和优化,这说明真正的通用模型仍然是一个未解决的挑战。

Deep SSMs in particular have conceptual strengths that suggest they may be promising as a general sequence modeling solution. These strengths include a principled approach to handling LRDs, as well as the ability to move between continuous-time, convolutional, and recurrent model representations, each with distinct capabilities (Fig. 1). Our technical contributions enable SSMs to be applied successfully to a varied set of benchmarks with minimal modification:

【翻译】深度SSMs特别具有概念上的优势,表明它们可能作为通用序列建模解决方案很有前景。这些优势包括处理LRDs的原则性方法,以及在连续时间、卷积和循环模型表示之间移动的能力,每种表示都具有不同的能力(图1)。我们的技术贡献使SSMs能够在最少修改的情况下成功应用于各种基准测试:

【解析】这段话强调了深度SSM作为通用序列模型的独特优势。首先是"原则性方法",SSM不是通过经验性的技巧来处理长程依赖,而是基于坚实的数学理论基础,特别是连续时间记忆理论。这种理论基础使得模型的行为更可预测、更可解释。其次是"表示的多样性",这是SSM相比其他模型的独特之处。大多数深度学习模型只有一种计算模式,比如RNN只能递归计算,CNN只能并行卷积计算,而SSM可以在三种不同的计算模式之间灵活切换:连续时间表示适合处理不规则采样的数据,卷积表示适合并行训练,递归表示适合快速推理。这种多模态的计算能力使得SSM能够适应不同的应用场景和计算需求。

• Large-scale generative modeling. On CIFAR-10 density estimation, S4 is competitive with the best autoregressive models (2 . 85 bits per dim). On WikiText-103 language modeling, S4 substantially closes the gap to Transformers (within 0 . 8 perplexity), setting SoTA for attention-free models.
• Fast autoregressive generation. Like RNNs, S4 can use its latent state to perform 60 ×\times× faster pixel/token generation than standard autoregressive models on CIFAR-10 and WikiText-103.
• Sampling resolution change. Like specialized CTMs, S4 can adapt to changes in time-series sampling frequency without retraining, e.g. at 0.5×0.5\times0.5× frequency on speech classification.
• Learning with weaker inductive biases. With no architectural changes, S4 surpasses Speech CNNs on speech classification, outperforms the specialized Informer model on time-series forecasting problems, and matches a 2-D ResNet on sequential CIFAR with over 90% accuracy.

【翻译】
• 大规模生成建模。在CIFAR-10密度估计上,S4与最佳自回归模型竞争力相当(2.85 bits per dim)。在WikiText-103语言建模上,S4大幅缩小了与Transformers的差距(在0.8困惑度内),为无注意力模型设定了最先进水平。
• 快速自回归生成。像RNNs一样,S4可以使用其潜在状态在CIFAR-10和WikiText-103上执行比标准自回归模型快60倍的像素/token生成。
• 采样分辨率变化。像专门的CTMs一样,S4可以适应时间序列采样频率的变化而无需重新训练,例如在语音分类上以0.5倍频率。
• 使用更弱归纳偏置的学习。在没有架构变化的情况下,S4在语音分类上超越了Speech CNNs,在时间序列预测问题上优于专门的Informer模型,并在序列CIFAR上以超过90%的准确率匹配2-D ResNet。

【解析】这四个应用场景展示了S4作为通用序列模型的强大能力。大规模生成建模验证了S4在概率建模方面的能力,密度估计是生成模型的核心任务,需要模型准确估计数据分布的概率密度。2.85 bits per dim的结果说明S4在图像生成任务上达到了与专门设计的自回归模型相当的水平。在语言建模任务上,困惑度是衡量语言模型质量的标准指标,S4能够在没有注意力机制的情况下接近Transformer的性能,这是一个重大突破。快速自回归生成展示了S4的计算效率优势,60倍的速度提升来自于其递归表示的特性,可以利用之前计算的隐藏状态来加速生成过程,而不需要像Transformer那样重新计算整个序列的注意力。采样分辨率变化的适应性体现了连续时间表示的优势,传统的离散模型通常需要针对特定的采样率进行训练,而S4可以自然地处理不同采样率的数据。最后一点关于"更弱归纳偏置"特别重要,它说明S4不依赖于特定领域的先验知识就能取得优秀性能,这正是通用模型的关键特征。在语音分类、时间序列预测和图像分类这些完全不同的任务上都能超越专门设计的模型,充分证明了S4的通用性。

2 背景:状态空间

Sections 2.1 to 2.4 describe the four properties of SSMs in Fig. 1: the classic continuous-time representation, addressing LRDs with the HiPPO framework, the discrete-time recurrent representation, and the parallelizable convolution representation. In particular, Section 2.4 introduces the SSM convolution kernel κ‾\overline{{\kappa}}κ , which is the focus of our theoretical contributions in Section 3.

【翻译】第2.1到2.4节描述了图1中SSMs的四个性质:经典的连续时间表示、使用HiPPO框架解决LRDs、离散时间递归表示和可并行化的卷积表示。特别是,第2.4节介绍了SSM卷积核 κ‾\overline{{\kappa}}κ,这是我们在第3节中理论贡献的重点。

2.1 状态空间模型:连续时间潜在状态模型

The state space model is defined by the simple equation (1) . It maps a 1-D input signal u(t)u(t)u(t) to an NNN -D latent state x(t)x(t)x(t) before projecting to a 1-D output signal y(t)y(t)y(t) .

x′(t)=Ax(t)+Bu(t)y(t)=Cx(t)+Du(t)\begin{array}{r}{x^{\prime}(t)=A x(t)+B u(t)}\\ {y(t)=C x(t)+D u(t)}\end{array} x(t)=Ax(t)+Bu(t)y(t)=Cx(t)+Du(t)

SSMs are broadly used in many scientific disciplines and related to latent state models such as Hidden Markov Models (HMM). Our goal is to simply use the SSM as a black-box representation in a deep sequence model, where A,B,C,DA,B,C,DA,B,C,D are parameters learned by gradient descent. For the remainder of this paper, we will omit the parameter D_{D}D for exposition (or equivalently, assume D=0D=0D=0 ) because the term ∇ϕϕDu\mathbf{\nabla}_{\mathbf{\mathbf{\phi}}}\mathbf{\mathbf{\phi}}_{\mathbf{\mathbf{{D}}}_{u}}ϕϕDu can be viewed as a skip connection and is easy to compute.

【翻译】状态空间模型由简单的方程(1)定义。它将一维输入信号 u(t)u(t)u(t) 映射到 NNN 维潜在状态 x(t)x(t)x(t),然后投影到一维输出信号 y(t)y(t)y(t)。SSMs在许多科学学科中被广泛使用,并与潜在状态模型如隐马尔可夫模型(HMM)相关。我们的目标是简单地将SSM作为深度序列模型中的黑盒表示,其中 A,B,C,DA,B,C,DA,B,C,D 是通过梯度下降学习的参数。在本文的其余部分,我们将省略参数 DDD 以便阐述(或等价地,假设 D=0D=0D=0),因为项 ∇ϕϕDu\mathbf{\nabla}_{\mathbf{\mathbf{\phi}}}\mathbf{\mathbf{\phi}}_{\mathbf{\mathbf{{D}}}_{u}}ϕϕDu 可以被视为跳跃连接并且易于计算。

【解析】状态空间模型的核心思想是通过引入一个中间的隐藏状态来建模输入和输出之间的复杂关系。这个模型包含两个关键方程:状态转移方程 x′(t)=Ax(t)+Bu(t)x'(t) = Ax(t) + Bu(t)x(t)=Ax(t)+Bu(t) 和输出方程 y(t)=Cx(t)+Du(t)y(t) = Cx(t) + Du(t)y(t)=Cx(t)+Du(t)。状态转移方程描述了隐藏状态如何随时间演化,其中 AAA 矩阵控制状态的自我演化动态,BBB 矩阵控制输入信号如何影响状态变化。输出方程则描述了如何从当前状态和输入生成输出,CCC 矩阵将高维状态投影到输出空间,DDD 矩阵提供输入到输出的直接连接。这种设计的优势在于隐藏状态 x(t)x(t)x(t) 可以捕获和存储历史信息,使模型具备记忆能力。在深度学习的语境下,这四个矩阵参数不再是手工设计的,而是通过反向传播算法从数据中学习得到。省略 DDD 参数的决定是出于简化考虑,因为 Du(t)Du(t)Du(t) 项本质上是一个跳跃连接,它允许输入直接影响输出而不经过状态转换,这种直接连接在计算上是平凡的,不会影响模型的核心能力。

2.2 使用HiPPO解决长程依赖问题

Prior work found that the basic SSM (1) actually performs very poorly in practice. Intuitively, one explanation is that linear first-order ODEs solve to an exponential function, and thus may suffer from gradients scaling exponentially in the sequence length (i.e., the vanishing/exploding gradients problem [ 32 ]). To address this problem, the LSSL leveraged the HiPPO theory of continuous-time memorization [ 16 ]. HiPPO specifies a class of certain matrices A∈RN×NA\in\mathbb{R}^{N\times N}ARN×N that when incorporated into (1) , allows the state x(t)x(t)x(t) to memorize the history of the input u(t)u(t)u(t) . The most important matrix in this class is defined by equation (2), which we will call the HiPPO matrix. For example, the LSSL found that simply modifying an SSM from a random matrix A\pmb{A}A to equation (2) improved its performance on the sequential MNIST benchmark from 60%60\%60% to 98%98\%98% .

(HiPPOMatrix)Ank=−{(2n+1)1/2(2k+1)1/2if n>kn+1if n=k0if n<k\mathrm{(HiPPO~Matrix)}\quad A_{nk} = -\begin{cases} (2n+1)^{1/2}(2k+1)^{1/2} & \text{if } n > k \\ n+1 & \text{if } n = k \\ 0 & \text{if } n < k \end{cases} (HiPPO Matrix)Ank=(2n+1)1/2(2k+1)1/2n+10if n>kif n=kif n<k

【翻译】先前的工作发现基本的SSM (1) 在实践中实际表现非常差。直观上,一个解释是线性一阶常微分方程的解是指数函数,因此可能遭受梯度随序列长度指数缩放的问题(即梯度消失/爆炸问题[32])。为了解决这个问题,LSSL利用了连续时间记忆化的HiPPO理论[16]。HiPPO指定了一类特定的矩阵 A∈RN×NA\in\mathbb{R}^{N\times N}ARN×N,当将其纳入(1)时,允许状态 x(t)x(t)x(t) 记忆输入 u(t)u(t)u(t) 的历史。这个类中最重要的矩阵由方程(2)定义,我们将其称为HiPPO矩阵。例如,LSSL发现简单地将SSM从随机矩阵 A\pmb{A}A 修改为方程(2),就将其在序列MNIST基准测试上的性能从60%提高到98%。

【解析】基本的SSM之所以表现糟糕,根源在于其数学性质。线性一阶常微分方程 x′(t)=Ax(t)+Bu(t)x'(t) = Ax(t) + Bu(t)x(t)=Ax(t)+Bu(t) 的解具有指数形式,这导致了一个严重的数值问题:当我们通过反向传播计算梯度时,梯度会随着序列长度呈指数级变化。如果矩阵A的特征值为负,梯度会指数衰减导致梯度消失;如果特征值为正,梯度会指数增长导致梯度爆炸。这正是传统RNN面临的经典问题在连续时间域的体现。HiPPO理论提供了一个数学上严格的解决方案,它不是通过经验性的技巧,而是基于函数逼近理论来设计矩阵A。HiPPO矩阵的设计原理是让状态 x(t)x(t)x(t) 能够最优地逼近输入历史 u(τ),τ≤tu(\tau), \tau \leq tu(τ),τt 在某个函数空间中的投影。这个矩阵具有特殊的结构:上三角部分为零,对角线元素为 −(n+1)-(n+1)(n+1),下三角部分的元素按照特定的公式计算。这种结构确保了系统的稳定性,避免了梯度的指数缩放问题。从60%到98%的性能提升充分说明了正确选择矩阵A的重要性,这不仅仅是工程优化,更是理论突破。

2.3 离散时间SSM:递归表示

To be applied on a discrete input sequence (u0,u1,…)(u_{0},u_{1},\ldots)(u0,u1,) instead of continuous function u(t)u(t)u(t) , (1) must be discretized by a step size Δ\DeltaΔ that represents the resolution of the input. Conceptually, the inputs uku_{k}uk can be viewed as sampling an implicit underlying continuous signal u(t)u(t)u(t) , where uk=u(kΔ)u_{k}=u(k\Delta)uk=u(kΔ) .

【翻译】为了应用于离散输入序列 (u0,u1,…)(u_{0},u_{1},\ldots)(u0,u1,) 而不是连续函数 u(t)u(t)u(t),方程(1)必须通过表示输入分辨率的步长 Δ\DeltaΔ 进行离散化。从概念上讲,输入 uku_{k}uk 可以被视为对隐含的底层连续信号 u(t)u(t)u(t) 的采样,其中 uk=u(kΔ)u_{k}=u(k\Delta)uk=u(kΔ)

【解析】这里解释了从连续时间到离散时间的转换过程。在实际应用中,我们处理的都是离散的数据序列,比如文本中的单词序列、音频中的采样点序列等,而不是数学上理想的连续函数。步长 Δ\DeltaΔ 是这个转换的关键参数,它决定了我们对连续信号的采样密度。可以把这个过程想象成用数码相机拍摄连续运动的物体:连续的运动轨迹就是 u(t)u(t)u(t),而相机按固定时间间隔 Δ\DeltaΔ 拍摄的一系列照片就是 uku_kuk。每张照片 uku_kuk 实际上是在时刻 kΔk\DeltakΔ 对连续运动的一个快照。这种离散化是必要的,因为计算机只能处理有限的离散数据,而不能直接处理无限精度的连续函数。

To discretize the continuous-time SSM, we follow prior work in using the bilinear method [ 43 ], which converts the state matrix A\pmb{A}A into an approximation A‾\overline{{A}}A . The discrete SSM is

xk=A‾xk−1+B‾ukA‾=(I−Δ/2⋅A)−1(I+Δ/2⋅A)yk=C‾xkB‾=(I−Δ/2⋅A)−1ΔBC‾=C.\begin{array}{l l l}{x_{k}=\overline{{A}}x_{k-1}+\overline{{B}}u_{k}}&{\overline{{A}}=(I-\Delta/2\cdot A)^{-1}(I+\Delta/2\cdot A)}\\ {y_{k}=\overline{{C}}x_{k}}&{\overline{{B}}=(I-\Delta/2\cdot A)^{-1}\Delta B}&{\overline{{C}}=C.}\end{array} xk=Axk1+Bukyk=CxkA=(IΔ/2A)1(I+Δ/2A)B=(IΔ/2A)1ΔBC=C.

【翻译】为了离散化连续时间SSM,我们遵循先前工作使用双线性方法[43],该方法将状态矩阵 A\pmb{A}A 转换为近似 A‾\overline{{A}}A。离散SSM为:

【解析】双线性方法是数值分析中一种经典的离散化技术,专门用于将连续时间的微分方程转换为离散时间的差分方程。这个方法的核心思想是使用梯形积分规则来近似微分方程的解。具体来说,对于连续时间的状态方程 x′(t)=Ax(t)+Bu(t)x'(t) = Ax(t) + Bu(t)x(t)=Ax(t)+Bu(t),双线性方法不是简单地用前向或后向差分来近似导数,而是使用当前时刻和前一时刻状态的平均值来近似。这就是为什么在 A‾\overline{A}A 的公式中会出现 Δ/2\Delta/2Δ/2 这个系数——它来自于梯形积分的权重。矩阵 (I−Δ/2⋅A)−1(I+Δ/2⋅A)(I-\Delta/2\cdot A)^{-1}(I+\Delta/2\cdot A)(IΔ/2A)1(I+Δ/2A) 实际上是对矩阵指数 eAΔe^{A\Delta}eAΔ 的一个有理函数近似,这种近似在数值稳定性方面比简单的欧拉方法要好得多。对于 B‾\overline{B}B,需要考虑输入信号在时间步长内的积分效应,所以有额外的 Δ\DeltaΔ 因子。而 C‾\overline{C}C 保持不变,因为输出投影不涉及时间积分。

Equation (3) is now a sequence-to quence map uk↦yku_{k}\mapsto y_{k}ukyk instead of function-to-function. Moreover the state equation is now a recurrence in x xkx_{k}xk , allowing the discrete SSM to be computed like an RNN. Concretely, xk∈RN\boldsymbol{x}_{k}\in\mathbb{R}^{N}xkRN can be viewed as a hidden state with transition matrix A‾\overline{{A}}A .

【翻译】方程(3)现在是序列到序列的映射 uk↦yku_{k}\mapsto y_{k}ukyk 而不是函数到函数。此外,状态方程现在是关于 xkx_{k}xk 的递归,允许离散SSM像RNN一样计算。具体地,xk∈RN\boldsymbol{x}_{k}\in\mathbb{R}^{N}xkRN 可以被视为具有转移矩阵 A‾\overline{{A}}A 的隐藏状态。

【解析】这个转换带来了计算范式的根本改变。在连续时间域,我们处理的是函数之间的映射关系,需要解微分方程;而在离散时间域,我们处理的是序列之间的映射关系,可以通过简单的矩阵运算来实现。递归关系 xk=A‾xk−1+B‾ukx_k = \overline{A}x_{k-1} + \overline{B}u_kxk=Axk1+Buk 说明当前时刻的状态完全由前一时刻的状态和当前输入决定,这正是马尔可夫性质的体现。这种结构与RNN的计算模式完全一致:都有一个隐藏状态在时间步之间传递信息,都通过矩阵乘法来更新状态。不同之处在于,RNN通常使用非线性激活函数,而这里的SSM保持线性变换。NNN 维的状态向量 xkx_kxk 充当了记忆载体,它能够存储和传递历史信息,而转移矩阵 A‾\overline{A}A 决定了这些信息如何在时间步之间演化和衰减。

Notationally, throughout this paper we use A‾,B‾,…{\overline{{A}}},{\overline{{B}}},\ldotsA,B, to denote discretized SSM matrices defined by (3) . Note that these matrices are a function of both A\pmb{A}A as well as a step size Δ\DeltaΔ ; we suppress this dependence for notational convenience when it is clear.

【翻译】在符号表示上,在整篇论文中我们使用 A‾,B‾,…{\overline{{A}}},{\overline{{B}}},\ldotsA,B, 来表示由(3)定义的离散化SSM矩阵。注意这些矩阵是 A\pmb{A}A 和步长 Δ\DeltaΔ 的函数;当含义清楚时,为了符号方便我们省略这种依赖关系。

【解析】带上横线的矩阵(如 A‾\overline{A}A)专门用来表示离散化后的参数,以区别于原始的连续时间参数(如 AAA)。离散化参数不仅依赖于原始的连续参数,还依赖于离散化的步长 Δ\DeltaΔ。实际上,A‾=f(A,Δ)\overline{A} = f(A, \Delta)A=f(A,Δ)B‾=g(A,B,Δ)\overline{B} = g(A, B, \Delta)B=g(A,B,Δ),其中 fffggg 是由双线性变换定义的函数。步长 Δ\DeltaΔ 的选择会显著影响离散化的精度和数值稳定性:Δ\DeltaΔ 太大会导致离散化误差增大,Δ\DeltaΔ 太小会导致计算量增加且可能出现数值精度问题。

2.4 训练SSM:卷积表示

The recurrent SSM (3) is not practical for training on modern hardware due to its sequentiality. Instead, there is a well-known connection between linear time-invariant (LTI) SSMs such as (1) and continuous convolutions. Correspondingly, (3) can actually be written as a discrete convolution.

【翻译】递归SSM (3) 由于其序列性质,在现代硬件上进行训练是不实用的。相反,线性时不变(LTI) SSM如(1)与连续卷积之间存在众所周知的联系。相应地,(3)实际上可以写成离散卷积的形式。

【解析】序列性质是指每一步的计算都必须等待前一步完成,无法并行化处理。现代GPU和TPU等硬件的优势在于大规模并行计算,而递归计算的串行特性无法充分利用这些硬件的计算能力。线性时不变系统的一个重要数学性质是它们可以等价地表示为卷积运算。在信号处理理论中,任何LTI系统的输出都可以表示为输入信号与系统冲激响应的卷积。这个转换不仅仅是数学技巧,而是揭示了SSM的本质:它实际上是在对输入序列进行某种特定的滤波操作。卷积运算的优势在于可以通过快速傅里叶变换(FFT)高效计算,并且天然支持并行化。

For simplicity let the initial state be x−1=0x_{-1}=0x1=0 . Then unrolling (3) explicitly yields

【翻译】为简单起见,设初始状态为 x−1=0x_{-1}=0x1=0。然后显式展开(3)得到:

【解析】设置初始状态为零是一个标准的简化假设,这样可以避免处理初始条件对后续计算的影响。在实际应用中,这个假设是合理的,因为我们通常假设系统在开始处理输入序列之前处于静止状态。展开递归关系是为了揭示其内在的卷积结构,通过逐步代入前面的状态值,我们可以看到每个输出如何依赖于所有历史输入的线性组合。

x0=B‾u0x1=AB‾u0+B‾u1x2=A‾2B‾u0+AB‾u1+B‾u2y0=CB‾u0y1=CAB‾u0+CB‾u1y2=CA‾2B‾u0+CAB‾u1+CB‾u2\begin{array}{l l l}{{x_{0}=\displaystyle{\overline{{B}}u_{0}}\qquad}}&{{x_{1}=\displaystyle{\overline{{A B}}u_{0}+\overline{{B}}u_{1}}\qquad}}&{{x_{2}=\displaystyle{\overline{{A}}^{2}\overline{{B}}u_{0}+\overline{{A B}}u_{1}+\overline{{B}}u_{2}}}}\\{{y_{0}=\displaystyle{\overline{{C B}}u_{0}}\qquad}}&{{y_{1}=\displaystyle{\overline{{C A B}}u_{0}+\overline{{C B}}u_{1}}\qquad}}&{{y_{2}=\displaystyle{\overline{{C A}}^{2}\overline{{B}}u_{0}+\overline{{C A B}}u_{1}+\overline{{C B}}u_{2}}}}\end{array} x0=Bu0y0=CBu0x1=ABu0+Bu1y1=CABu0+CBu1x2=A2Bu0+ABu1+Bu2y2=CA2Bu0+CABu1+CBu2

【解析】这个展开过程展示了SSM的记忆机制。观察状态方程,x0x_0x0 只依赖于当前输入 u0u_0u0x1x_1x1 依赖于 u0u_0u0u1u_1u1x2x_2x2 依赖于 u0u_0u0u1u_1u1u2u_2u2。关键观察是历史输入的影响会随时间衰减:u0u_0u0x2x_2x2 的影响通过 A‾2B‾\overline{A}^2\overline{B}A2B 传递,u1u_1u1 的影响通过 A‾B‾\overline{A}\overline{B}AB 传递,而 u2u_2u2 的影响直接通过 B‾\overline{B}B 传递。矩阵 A‾\overline{A}A 的幂次决定了历史信息的衰减速度。对于输出方程,每个 yky_kyk 都是所有历史输入的加权和,权重系数形成了一个特定的模式:CB‾\overline{CB}CBCAB‾\overline{CAB}CABCA2B‾\overline{CA^2B}CA2B 等。这些系数实际上构成了系统的冲激响应,也就是卷积核。

This can be vectorized into a convolution (4) with an explicit formula for the convolution kernel (5).

【翻译】这可以向量化为卷积(4),并给出卷积核的显式公式(5)。

【解析】向量化是将标量形式的递归关系转换为向量运算的过程,这样可以更清晰地看出卷积结构。通过观察上面展开的模式,我们发现每个输出都是输入序列与一个固定权重序列的卷积。这个转换的关键洞察是:递归系统的输出可以表示为输入与系统冲激响应的卷积,这是线性系统理论的基本结果。

yk=CA‾kB‾u0+CA‾k−1B‾u1+⋅⋅⋅+CAB‾uk−1+CB‾uky=K‾∗u.\begin{array}{r l}&{y_{k}=\overline{{C A}}^{k}\overline{{B}}u_{0}+\overline{{C A}}^{k-1}\overline{{B}}u_{1}+\cdot\cdot\cdot+\overline{{C A B}}u_{k-1}+\overline{{C B}}u_{k}}\\ &{y=\overline{{K}}\ast u.}\end{array} yk=CAkBu0+CAk1Bu1++CABuk1+CBuky=Ku.

【解析】第一个等式展示了输出 yky_kyk 的完整展开形式,它是所有历史输入的加权和。权重系数按照 CAkB‾\overline{CA^k B}CAkBCAk−1B‾\overline{CA^{k-1}B}CAk1B、…、CAB‾\overline{CAB}CABCB‾\overline{CB}CB 的模式递减。这个模式揭示了SSM的本质:它是一个具有特定冲激响应的线性滤波器。第二个等式 y=K‾∗uy = \overline{K} \ast uy=Ku 是卷积的紧凑表示,其中 ∗\ast 表示卷积运算,K‾\overline{K}K 是卷积核。这个转换的重要性在于卷积可以通过FFT高效计算,时间复杂度从 O(L2)O(L^2)O(L2) 降低到 O(Llog⁡L)O(L \log L)O(LlogL),其中 LLL 是序列长度。

K‾∈RL:=KL(A‾,B‾,C‾):=(CA‾iB‾)i∈[L]=(CB‾,CAB‾,…,CA‾L−1B‾).{\overline{{K}}}\in\mathbb{R}^{L}:=K_{L}({\overline{{A}}},{\overline{{B}}},{\overline{{C}}}):=\left({\overline{{C A}}}^{i}{\overline{{B}}}\right)_{i\in[L]}=({\overline{{C B}}},{\overline{{C A B}}},\ldots,{\overline{{C A}}}^{L-1}{\overline{{B}}}). KRL:=KL(A,B,C):=(CAiB)i[L]=(CB,CAB,,CAL1B).

【解析】这个公式给出了卷积核 K‾\overline{K}K 的精确定义。卷积核是一个长度为 LLL 的向量,其第 iii 个元素是 CAiB‾\overline{CA^i B}CAiB。这个序列从 i=0i=0i=0 开始到 i=L−1i=L-1i=L1 结束,对应于系统对不同时间延迟输入的响应。从数学角度看,这是系统冲激响应的离散化版本。计算这个卷积核需要计算矩阵 A‾\overline{A}A 的各次幂,这在 A‾\overline{A}A 是一般矩阵时需要 O(N2L)O(N^2 L)O(N2L) 的计算复杂度,其中 NNN 是状态维度。这正是后续章节要解决的计算瓶颈问题。

In other words, equation (4) is a single (non-circular) convolution and can be computed very efficiently with FFTs, provided that κ‾\overline{{\kappa}}κ is known. However, computing κ‾\overline{{\kappa}}κ in (5) is non-trivial and is the focus of our technical contributions in Section 3. We call K‾\scriptstyle{\overline{{\boldsymbol{K}}}}K the SSM convolution kernel or filter.

【翻译】换句话说,方程(4)是单个(非循环)卷积,如果 K‾\overline{K}K 已知,可以用FFT非常高效地计算。然而,计算(5)中的 K‾\overline{K}K 并非易事,这是我们在第3节技术贡献的重点。我们称 K‾\overline{K}K 为SSM卷积核或滤波器。

【解析】一旦我们有了卷积核 K‾\overline{K}K,整个SSM的前向传播就变成了标准的卷积运算,可以利用FFT在 O(Llog⁡L)O(L \log L)O(LlogL) 时间内完成,这比递归计算的 O(L)O(L)O(L) 时间(但无法并行)要高效得多。非循环卷积是指标准的线性卷积,区别于循环卷积(circular convolution)。然而,计算卷积核本身却是一个重大挑战,因为它需要计算矩阵幂 Ai‾\overline{A^i}Ai,这在朴素实现下需要 O(N2L)O(N^2 L)O(N2L) 的计算量。这个计算瓶颈是整个S4方法要解决的核心问题。SSM卷积核的概念将状态空间模型与信号处理中的滤波器理论联系起来,为后续的优化算法提供了理论基础。

3 方法:结构化状态空间(S4)

Our technical results focus on developing the S4 parameterization and showing how to efficiently compute all views of the SSM (Section 2): the continuous representation (A,B,C)(A,B,C)(A,B,C) (1) , the recurrent representation (A‾,B‾,C‾)({\overline{{A}}},{\overline{{B}}},{\overline{{C}}})(A,B,C) (3), and the convolutional representation κ‾\overline{{\kappa}}κ (4).

【翻译】我们的技术成果专注于开发S4参数化方法,并展示如何高效计算SSM的所有视图(第2节):连续表示 (A,B,C)(A,B,C)(A,B,C) (1)、递归表示 (A‾,B‾,C‾)({\overline{{A}}},{\overline{{B}}},{\overline{{C}}})(A,B,C) (3),以及卷积表示 κ‾\overline{\kappa}κ (4)。

【解析】S4方法的关键创新在于统一处理SSM的三种等价表示形式。连续表示是原始的微分方程形式,适合理论分析;递归表示是离散化后的状态更新形式,适合推理阶段的序列生成;卷积表示将递归计算转换为可并行化的卷积运算,适合训练阶段的批量处理。传统方法在这三种表示之间转换时会遇到计算瓶颈,特别是计算卷积核 κ‾\overline{\kappa}κ 需要 O(N2L)O(N^2L)O(N2L) 的复杂度。S4的技术贡献就是提供了一套统一的参数化框架,使得在这三种表示之间的转换都能高效完成。

Section 3.1 motivates our approach, which is based on the linear algebraic concepts of conjugation and diagonalization, and discusses why the naive application of this approach does not work. Section 3.2 gives an overview of the key technical components of our approach and formally defines the S4 parameterization. Section 3.3 sketches the main results, showing that S4 is asymptotically efficient (up to log factors) for sequence models. Proofs are in Appendices B and C.

【翻译】第3.1节阐述了我们方法的动机,该方法基于共轭和对角化的线性代数概念,并讨论了为什么这种方法的朴素应用不起作用。第3.2节概述了我们方法的关键技术组件,并正式定义了S4参数化。第3.3节概述了主要结果,表明S4对于序列模型是渐近高效的(达到对数因子)。证明在附录B和C中。

3.1 动机:对角化

The fundamental bottleneck in computing the discrete-time SSM (3) is that it involves repeated matrix multiplication by A‾\overline{{A}}A . For example, computing (5) naively as in the LSSL involves LLL successive multiplications by A‾\overline{{A}}A , requiring O(N2L)O(N^{2}L)O(N2L) operations and O(NL)O(N L)O(NL) space.

【翻译】计算离散时间SSM (3)的根本瓶颈在于它涉及对 A‾\overline{A}A 的重复矩阵乘法。例如,像LSSL中那样朴素地计算(5)涉及对 A‾\overline{A}ALLL 次连续乘法,需要 O(N2L)O(N^{2}L)O(N2L) 次运算和 O(NL)O(N L)O(NL) 的空间。

【解析】这里指出了SSM计算的核心难题。回顾前面的卷积核公式 K‾=(CAB‾,CA2B‾,...,CAL−1B‾)\overline{K} = (\overline{CAB}, \overline{CA^2B}, ..., \overline{CA^{L-1}B})K=(CAB,CA2B,...,CAL1B),要计算这个序列,我们需要计算 A‾\overline{A}A 的1次幂、2次幂、直到 (L−1)(L-1)(L1) 次幂。如果直接计算,每次矩阵乘法需要 O(N2)O(N^2)O(N2) 次运算,总共需要 L−1L-1L1 次这样的乘法,所以总复杂度是 O(N2L)O(N^2 L)O(N2L)。这个复杂度对于长序列来说是不可接受的,因为它随序列长度线性增长。空间复杂度 O(NL)O(NL)O(NL) 是因为需要存储所有的中间结果 Ai‾\overline{A^i}Ai。这个瓶颈是整个S4方法要解决的核心问题。

To overcome this bottleneck, we use a structural result that allows us to simplify SSMs.

【翻译】为了克服这个瓶颈,我们使用一个结构性结果来简化SSM。

【解析】这里预告了解决方案的基本思路:不是通过更快的算法来计算矩阵幂,而是通过改变矩阵的结构形式来根本性地简化计算。这种结构性方法是线性代数中的经典思路,通过矩阵变换将复杂的计算转化为简单的计算。

Lemma 3.1. Conjugation is an equivalence relation on SSMs (A,B,C)∼(V−1AV,V−1B,CV).(A,B,C)\sim(V^{-1}A V,V^{-1}B,C V).(A,B,C)(V1AV,V1B,CV).

【翻译】引理3.1. 共轭是SSM上的等价关系 (A,B,C)∼(V−1AV,V−1B,CV)(A,B,C)\sim(V^{-1}A V,V^{-1}B,C V)(A,B,C)(V1AV,V1B,CV)

【解析】共轭变换是线性代数中的基本概念,它表示通过可逆矩阵 VVV 进行坐标变换。这个引理说明两个SSM系统 (A,B,C)(A,B,C)(A,B,C)(V−1AV,V−1B,CV)(V^{-1}AV, V^{-1}B, CV)(V1AV,V1B,CV) 在数学上是等价的,它们产生完全相同的输入输出关系。共轭变换的本质是改变状态空间的基底,就像在不同坐标系中描述同一个物理现象。这个等价性为我们提供了自由度:我们可以选择一个计算上更有利的矩阵形式,而不改变系统的本质行为。

Proof. Write out the two SSMs with state denoted by xxx and x~\tilde{x}x~ respectively:

【翻译】证明. 分别用状态 xxxx~\tilde{x}x~ 写出两个SSM:

After multiplying the right side SSM by VVV , the two SSMs become identical with x=Vx~x=V\tilde{x}x=Vx~ . Therefore these compute the exact same operator u↦yu\mapsto yuy , but with a change of basis by VVV in the state xxx .

【翻译】将右侧SSM乘以 VVV 后,两个SSM变得相同,其中 x=Vx~x=V\tilde{x}x=Vx~。因此,这些计算完全相同的算子 u↦yu\mapsto yuy,但在状态 xxx 中通过 VVV 进行了基变换。

【解析】两个系统的状态向量 xxxx~\tilde{x}x~ 通过线性变换 x=Vx~x = V\tilde{x}x=Vx~ 相关联。虽然内部状态的表示不同,但从输入到输出的映射关系保持不变。这就像用不同的坐标系描述同一个旋转:虽然坐标值不同,但旋转本身是相同的。这个性质允许我们在保持系统功能不变的前提下,选择计算上最方便的状态表示。

Lemma 3.1 motivates putting A\pmb{A}A into a canonical form by conjugation 2 , which is ideally more structured and allows faster computation. For example, if A\pmb{A}A were diagonal, the resulting computations become much more tractable. In particular, the desired κ‾\overline{{\kappa}}κ (equation (4) ) would be a Vandermonde product which theoretically only needs O((N+L)log⁡2(N+L))O((N+L)\log^{2}(N+L))O((N+L)log2(N+L)) ) arithmetic operations [29].

【翻译】引理3.1激发了通过共轭将 AAA 转换为规范形式的想法,这种形式理想情况下更加结构化并允许更快的计算。例如,如果 AAA 是对角的,那么结果计算变得更加易处理。特别地,所需的 κ‾\overline{\kappa}κ (方程(4))将是一个Vandermonde乘积,理论上只需要 O((N+L)log⁡2(N+L))O((N+L)\log^{2}(N+L))O((N+L)log2(N+L)) 次算术运算[29]。

【解析】对角矩阵是最理想的矩阵形式,因为对角矩阵的幂运算极其简单:(diag(λ1,...,λN))k=diag(λ1k,...,λNk)(diag(\lambda_1, ..., \lambda_N))^k = diag(\lambda_1^k, ..., \lambda_N^k)(diag(λ1,...,λN))k=diag(λ1k,...,λNk)。如果 A‾\overline{A}A 是对角的,那么计算卷积核就变成了计算 C‾⋅diag(λ1i,...,λNi)⋅B‾\overline{C} \cdot diag(\lambda_1^i, ..., \lambda_N^i) \cdot \overline{B}Cdiag(λ1i,...,λNi)B 对于 i=0,1,...,L−1i = 0, 1, ..., L-1i=0,1,...,L1。这形成了一个Vandermonde结构,可以通过快速算法在近线性时间内计算。Vandermonde矩阵与多项式插值密切相关,有专门的快速算法。这个复杂度相比原来的 O(N2L)O(N^2L)O(N2L) 是巨大的改进。

Unfortunately, the naive application of diagonalization does not work due to numerical issues. Werive the explicit diagonalization for the HiPPO matrix (2) and show it has entries exponentially large in the state size NNN , rendering the diagonalization numerically infeasible (e.g. CVC VCV in Lemma 3.1 would not be computable). We note that Gu et al. [18] proposed a different (unimplemented) algorithm to compute κ‾\overline{{\kappa}}κ faster than the naive algorithm. In Appendix B, we prove that it is also numerically unstable for related reasons.

【翻译】不幸的是,对角化的朴素应用由于数值问题而不起作用。我们推导了HiPPO矩阵(2)的显式对角化,并表明它具有在状态大小 NNN 上指数级大的条目,使得对角化在数值上不可行(例如,引理3.1中的 CVCVCV 将无法计算)。我们注意到Gu等人[18]提出了一种不同的(未实现的)算法来比朴素算法更快地计算 κ‾\overline{\kappa}κ。在附录B中,我们证明了由于相关原因它也是数值不稳定的。

【解析】这里揭示了一个关键的实际问题:理论上完美的解决方案在实践中可能完全不可行。HiPPO矩阵虽然可以对角化,但对角化矩阵 VVV 的条目会随着状态维度 NNN 指数增长。在有限精度的计算机运算中,这些巨大的数值会导致严重的数值误差,使得计算结果完全不可靠。

Lemma 3.2. The HiPPO matrix A\pmb{A}A in equation (2) is diagonalized by the matrix Vij=(i+ji−j)V_{i j}={\binom{i+j}{i-j}}Vij=(iji+j). In particular, V3i,i=(4i2i)≈24iV_{3i,i}={\binom{4i}{2i}}\approx2^{4i}V3i,i=(2i4i)24i . Therefore VVV has entries of magnitude up to 24N/32^{4N/3}24N/3 .

【翻译】引理3.2. 方程(2)中的HiPPO矩阵 AAA 由矩阵 Vij=(i+ji−j)V_{ij}={\binom{i+j}{i-j}}Vij=(iji+j) 对角化。特别地,V3i,i=(4i2i)≈24iV_{3i,i}={\binom{4i}{2i}}\approx2^{4i}V3i,i=(2i4i)24i。因此 VVV 具有量级高达 24N/32^{4N/3}24N/3 的条目。

【解析】这个引理给出了HiPPO矩阵对角化的具体形式,并量化了数值不稳定性的严重程度。对角化矩阵 VVV 的条目是二项式系数,这些系数会随着索引指数增长。具体来说,V3i,i≈24iV_{3i,i} \approx 2^{4i}V3i,i24i 说明矩阵条目以 24i2^{4i}24i 的速度增长。当状态维度 NNN 较大时,最大的条目可以达到 24N/32^{4N/3}24N/3,这是一个天文数字。例如,当 N=100N=100N=100 时,某些条目可能达到 2133≈10402^{133} \approx 10^{40}21331040,远超计算机的数值表示范围。这解释了为什么直接对角化在实践中完全不可行。

3.2 S4参数化:正规加低秩

The previous discussion implies that we should only conjugate by well-conditioned matrices VVV . The ideal scenario is when the matrix A\pmb{A}A is diagonalizable by a perfectly conditioned (i.e., unitary) matrix. By the Spectral Theorem of linear algebra, this is exactly the class of normal matrices . However, this class of matrices is restrictive; in particular, it does not contain the HiPPO matrix (2).

【翻译】前面的讨论说明我们应该只用条件良好的矩阵 VVV 进行共轭变换。理想情况是当矩阵 AAA 可以被一个完全条件良好的(即酉)矩阵对角化。根据线性代数的谱定理,这正是正规矩阵类。然而,这类矩阵是限制性的;特别地,它不包含HiPPO矩阵(2)。

【解析】条件良好的矩阵是指其条件数接近1的矩阵,这样的矩阵在数值计算中不会放大误差。酉矩阵是最理想的条件良好矩阵,因为它们保持向量的长度和角度,条件数恰好等于1。谱定理告诉我们,一个矩阵可以被酉矩阵对角化当且仅当它是正规矩阵(即满足 AA∗=A∗AAA^* = A^*AAA=AA 的矩阵)。正规矩阵包括对称矩阵、反对称矩阵、酉矩阵等,它们都有很好的数值性质。但问题在于HiPPO矩阵不是正规矩阵,这说明我们无法直接用酉变换将其对角化,必须寻找其他的数学结构来解决计算问题。

We make the observation that although the HiPPO matrix is not normal, it can be decomposed as the sum of a normal and low-rank matrix . However, this is still not useful by itself: unlike a diagonal matrix, powering up this sum (in (5) ) is still slow and not easily optimized. We overcome this bottleneck by simultaneously applying three new techniques.

【翻译】我们观察到虽然HiPPO矩阵不是正规的,但它可以分解为正规矩阵和低秩矩阵的和。然而,这本身仍然没有用处:与对角矩阵不同,对这个和进行幂运算(在(5)中)仍然很慢且不容易优化。我们通过同时应用三种新技术来克服这个瓶颈。

【解析】这里提出了S4方法的核心洞察:正规加低秩(NPLR)分解。虽然HiPPO矩阵不能直接用酉矩阵对角化,但可以写成 A=Anormal+Alow−rankA = A_{normal} + A_{low-rank}A=Anormal+Alowrank 的形式,其中 AnormalA_{normal}Anormal 是正规矩阵(可以被酉矩阵对角化),Alow−rankA_{low-rank}Alowrank 是低秩矩阵(秩远小于矩阵维度)。然而,仅仅有这个分解还不够,因为 (Anormal+Alow−rank)k(A_{normal} + A_{low-rank})^k(Anormal+Alowrank)k 的计算仍然复杂。两个矩阵和的幂不等于各自幂的和,所以我们不能简单地分别计算然后相加。将要介绍三种新技术来彻底解决这个计算难题。这三种技术将在后续内容中详细展开,它们共同构成了S4算法的技术核心。

在这里插入图片描述

• Instead of computing κ\kappaκ directly, we compute its spectrum by evaluating its truncated generating function ∑j=0L−1K‾jζj\textstyle\sum_{j=0}^{L-1}{\overline{{K}}}_{j}\zeta^{j}j=0L1Kjζj at the roots of unity ζ\zetaζ . κ‾\overline{{\kappa}}κ can then be found by applying an inverse FFT.

【翻译】• 我们不直接计算 κ\kappaκ,而是通过在单位根 ζ\zetaζ 处评估其截断生成函数 ∑j=0L−1K‾jζj\textstyle\sum_{j=0}^{L-1}{\overline{{K}}}_{j}\zeta^{j}j=0L1Kjζj 来计算其频谱。然后可以通过应用逆FFT找到 κ‾\overline{{\kappa}}κ

【解析】这里引入了一个巧妙的计算策略:频域计算。生成函数是一种强大的数学工具,它将序列 {K‾0,K‾1,...,K‾L−1}\{\overline{K}_0, \overline{K}_1, ..., \overline{K}_{L-1}\}{K0,K1,...,KL1} 编码为多项式 ∑j=0L−1K‾jζj\sum_{j=0}^{L-1}\overline{K}_j \zeta^jj=0L1Kjζj。单位根是复平面上满足 ζL=1\zeta^L = 1ζL=1 的复数,它们在单位圆上均匀分布。当我们在所有L个单位根处评估这个生成函数时,实际上得到了序列的离散傅里叶变换。这个变换将时域的卷积运算转换为频域的点乘运算,大大简化了计算。逆FFT则将频域结果转换回时域,得到我们需要的卷积核。这种方法的核心优势是FFT算法的 O(Llog⁡L)O(L \log L)O(LlogL) 复杂度,相比直接计算的 O(L2)O(L^2)O(L2) 复杂度有显著改进。

• This generating function is closely related to the matrix resolvent, and now involves a matrix inverse instead of power . The low-rank term can now be corrected by applying the Woodbury identity which reduces (A+PQ∗)−1(A+P Q^{*})^{-1}(A+PQ)1 in terms of A−1A^{-1}A1 , truly reducing to the diagonal case.

【翻译】• 这个生成函数与矩阵预解式密切相关,现在涉及矩阵逆而不是幂。现在可以通过应用Woodbury恒等式来修正低秩项,该恒等式将 (A+PQ∗)−1(A+P Q^{*})^{-1}(A+PQ)1A−1A^{-1}A1 表示,真正简化为对角情况。

【解析】这里揭示了从幂运算到逆运算的关键转换。矩阵预解式 (zI−A)−1(zI - A)^{-1}(zIA)1 是复分析中的重要概念,它与矩阵的谱性质直接相关。通过生成函数方法,原本需要计算矩阵的高次幂 AkA^kAk 的问题转化为计算矩阵逆 (zI−A)−1(zI - A)^{-1}(zIA)1 的问题。这个转换的关键在于:矩阵逆的计算可以利用矩阵的结构性质进行优化。Woodbury恒等式是矩阵理论中的经典结果:(A+UCV)−1=A−1−A−1U(C−1+VA−1U)−1VA−1(A + UCV)^{-1} = A^{-1} - A^{-1}U(C^{-1} + VA^{-1}U)^{-1}VA^{-1}(A+UCV)1=A1A1U(C1+VA1U)1VA1。当应用到我们的NPLR结构 A+PQ∗A + PQ^*A+PQ 时,如果 AAA 是对角矩阵,那么 A−1A^{-1}A1 也是对角的,计算非常简单。Woodbury恒等式允许我们将复杂的 (A+PQ∗)−1(A + PQ^*)^{-1}(A+PQ)1 分解为对角部分 A−1A^{-1}A1 和低秩修正项的组合,从而实现高效计算。

• Finally, we show that the diagonal matrix case is equivalent to the computation of a Cauchy kernel 1ωj−ζk\frac{1}{\omega_{j}-\zeta_{k}}ωjζk1 , a well-studied problem with stable near-linear algorithms [30, 31].

【翻译】• 最后,我们表明对角矩阵情况等价于计算Cauchy核 1ωj−ζk\frac{1}{\omega_{j}-\zeta_{k}}ωjζk1,这是一个有稳定近线性算法的充分研究问题[30, 31]。

【解析】这是整个算法链条的最后一环,也是最关键的一步。Cauchy核是数值分析中的经典对象,形式为 1ωj−ζk\frac{1}{\omega_j - \zeta_k}ωjζk1,其中 {ωj}\{\omega_j\}{ωj}{ζk}\{\zeta_k\}{ζk} 是两组不同的复数点。这种结构在有理函数插值、数值积分、快速多极方法等领域广泛出现。当矩阵 AAA 是对角的时,其特征值 {ωj}\{\omega_j\}{ωj} 就是对角元素,而单位根 {ζk}\{\zeta_k\}{ζk} 是我们评估生成函数的点。计算 (zI−A)−1(zI - A)^{-1}(zIA)1 在单位根处的值就等价于计算Cauchy矩阵。Cauchy矩阵的计算已经有非常成熟的快速算法,特别是基于快速多极方法(FMM)的算法,可以在 O((N+L)log⁡2(N+L))O((N+L)\log^2(N+L))O((N+L)log2(N+L)) 时间内完成计算。这些算法不仅快速,而且数值稳定,解决了直接对角化方法的数值不稳定问题。

Our techniques apply to any matrix that can be decomposed as Normal Plus Low-Rank (NPLR)

【翻译】我们的技术适用于任何可以分解为正规加低秩(NPLR)的矩阵

【解析】这句话强调了S4方法的普适性。NPLR分解不仅仅适用于HiPPO矩阵,而是一个更广泛的矩阵类。任何可以写成 A=Anormal+Alow−rankA = A_{normal} + A_{low-rank}A=Anormal+Alowrank 形式的矩阵都可以使用这套技术。正规矩阵具有良好的谱性质,可以被酉矩阵对角化而不产生数值问题。低秩矩阵虽然不能简单对角化,但其秩数很小,可以用Woodbury恒等式高效处理。这种分解策略为处理复杂矩阵结构提供了一个通用框架,大大扩展了S4方法的应用范围。

Theorem 1. All HiPPO matrices from [16] have a NPLR representation

【翻译】定理1. 来自[16]的所有HiPPO矩阵都有NPLR表示

【解析】这个定理确立了S4方法的理论基础。它证明了所有在HiPPO框架中定义的矩阵都可以进行NPLR分解,这说明S4的技术方法具有完整的理论覆盖。HiPPO矩阵族包括多种不同的记忆机制,如LegS(Legendre scaled)、LegT(Legendre translated)、LagT(Laguerre translated)等,每种都对应不同的函数逼近基础。定理1保证了无论选择哪种HiPPO矩阵,都可以应用S4的高效算法。

A=VΛV∗−PQ⊤=V(Λ−(V∗P)(V∗Q)∗)V∗\begin{array}{r}{A=V\Lambda V^{*}-P Q^{\top}=V\left(\Lambda-\left(V^{*}P\right)\left(V^{*}Q\right)^{*}\right)V^{*}}\end{array} A=VΛVPQ=V(Λ(VP)(VQ))V

for unitary V∈CN×NV\in\mathbb{C}^{N\times N}VCN×N ona Λ\pmb{\Lambda}Λ and low-rank factorization P,Q∈RN×rP,Q\in\mathbb{R}^{N\times r}P,QRN×r . T matrices HiPPO- LegS, LegT, LagT all satisfy r = 1 or r = 2 . In particular, equation (2) is NPLR with r = 1 .

【翻译】对于酉矩阵 V∈CN×NV\in\mathbb{C}^{N\times N}VCN×N、对角矩阵 Λ\LambdaΛ 和低秩分解 P,Q∈RN×rP,Q\in\mathbb{R}^{N\times r}P,QRN×r。HiPPO-LegS、LegT、LagT矩阵都满足 r=1r = 1r=1r=2r = 2r=2。特别地,方程(2)是秩为 r=1r = 1r=1 的NPLR。

【解析】这个公式给出了NPLR分解的具体数学形式。等式展示了两种等价的表示方法:左边是原始的NPLR形式 A=VΛV∗−PQTA = V\Lambda V^* - PQ^TA=VΛVPQT,右边是经过酉变换后的形式。酉矩阵 VVV 保证了数值稳定性,因为酉变换不会放大数值误差。对角矩阵 Λ\LambdaΛ 包含了正规部分的特征值,这部分可以高效计算。低秩项 PQTPQ^TPQT 的秩 rrr 通常很小,对于大多数HiPPO矩阵只有1或2。这个小的秩数是关键,因为Woodbury恒等式的计算复杂度与秩数相关。当 rrr 很小时,低秩修正的计算成本可以忽略不计。方程(2)中的HiPPO矩阵具有 r=1r=1r=1 的特别简单结构,这使得S4算法在这种情况下特别高效。整个分解将复杂的非正规矩阵转化为正规部分加简单低秩修正的形式,为后续的快速算法奠定了基础。

3.3 S4算法和计算复杂度

By equation (6) , note that NPLR matrices can be conjugated into diagonal plus low-rank (DPLR) form (now over C\mathbb{C}C instead of R\mathbb{R}R ). Theorems 2 and 3 describe the complexities of SSMs where A\pmb{A}A is in DPLR form. S4 is optimal or near-optimal for both recurrent and convolutional representations.

【翻译】根据方程(6),注意NPLR矩阵可以共轭变换为对角加低秩(DPLR)形式(现在是在 C\mathbb{C}C 上而不是 R\mathbb{R}R 上)。定理2和3描述了当 A\pmb{A}A 为DPLR形式时SSM的复杂度。S4对于递归和卷积表示都是最优或接近最优的。

【解析】NPLR(正规加低秩)矩阵通过共轭变换可以转化为DPLR(对角加低秩)形式。共轭变换是线性代数中的基本操作,对于复矩阵A,其共轭变换是 A∗A^*A。这个转换的关键在于从实数域转移到复数域,这样做的好处是复数域上的对角化更加灵活和完整。对角矩阵的计算特别简单,因为其非对角元素都是零,矩阵运算可以简化为对角元素的标量运算。低秩部分虽然不能对角化,但由于其秩数很小,可以用专门的技术高效处理。定理2和3分别针对递归计算和卷积计算给出了复杂度分析,证明了S4在这两种不同的计算模式下都能达到理论最优性能。这种双重最优性是S4相比其他方法的重要优势。

Theorem 2 (S4 Recurrence) . Given any step size Δ\DeltaΔ , computing one step of the recurrence (3) can be done in O(N)O(N)O(N) operations where NNN is the state size.

【翻译】定理2(S4递归)。给定任意步长 Δ\DeltaΔ,计算递归(3)的一步可以在 O(N)O(N)O(N) 次操作内完成,其中 NNN 是状态大小。

【解析】这个定理确立了S4递归计算的线性复杂度。在传统的状态空间模型中,每一步递归通常需要进行完整的矩阵-向量乘法,对于 N×NN \times NN×N 矩阵,这需要 O(N2)O(N^2)O(N2) 次操作。但是S4通过DPLR分解将这个复杂度降低到 O(N)O(N)O(N)。这个改进的关键在于DPLR结构的特殊性质:对角部分的矩阵-向量乘法只需要 O(N)O(N)O(N) 次操作(因为只需要逐元素相乘),而低秩部分由于秩数很小,其计算成本也可以控制在 O(N)O(N)O(N) 范围内。这种线性复杂度对于长序列处理至关重要,因为它确保了递归计算不会成为性能瓶颈。

Theorem 2 follows from the fact that the inverse of a DPLR matrix is also DPLR (e.g. also by the Woodbury identity). This implies that the discretized matrix A‾\overline{{A}}A is the product of two DPLR matrices and thus has O(N)O(N)O(N) matrix-vector multiplication. Appendix C.2 computes A\boldsymbol{A}A in closed DPLR form.

【翻译】定理2源于DPLR矩阵的逆也是DPLR的事实(例如,也通过Woodbury恒等式)。这说明离散化矩阵 A‾\overline{{A}}A 是两个DPLR矩阵的乘积,因此具有 O(N)O(N)O(N) 的矩阵-向量乘法复杂度。附录C.2以封闭DPLR形式计算 A\boldsymbol{A}A

【解析】这段话解释了定理2成立的数学原理。DPLR矩阵的一个重要性质是其逆矩阵仍然保持DPLR结构。这个性质可以通过Woodbury恒等式来证明:对于形如 A=D+PQ∗A = D + PQ^*A=D+PQ 的DPLR矩阵,其逆矩阵 A−1A^{-1}A1 可以表示为 D−1−D−1P(I+Q∗D−1P)−1Q∗D−1D^{-1} - D^{-1}P(I + Q^*D^{-1}P)^{-1}Q^*D^{-1}D1D1P(I+QD1P)1QD1,这仍然是对角加低秩的形式。在SSM的离散化过程中,连续时间矩阵A需要转换为离散时间矩阵 A‾\overline{A}A,这个转换通常涉及矩阵指数或矩阵逆的计算。由于DPLR结构在这些运算下保持不变,最终的 A‾\overline{A}A 仍然是DPLR形式,从而保证了 O(N)O(N)O(N) 的计算复杂度。附录C.2提供了具体的数学推导,展示了如何在封闭形式下计算这些矩阵。

Theorem 3 (S4 Convolution) . Given any step size Δ\DeltaΔ , computing the SSM convolution filter κ‾\overline{{\kappa}}κ can be reduced to 4 Cauchy multiplies, requiring only O~(N+L)\widetilde{O}(N+L)O(N+L) operations and O(N+L)O(N+L)O(N+L) space.

【翻译】定理3(S4卷积)。给定任意步长 Δ\DeltaΔ,计算SSM卷积滤波器 κ‾\overline{{\kappa}}κ 可以简化为4次Cauchy乘法,仅需要 O~(N+L)\widetilde{O}(N+L)O(N+L) 次操作和 O(N+L)O(N+L)O(N+L) 空间。

【解析】这是S4的核心技术贡献,将卷积核计算的复杂度从 O(NL)O(NL)O(NL) 或更高降低到接近线性的 O~(N+L)\widetilde{O}(N+L)O(N+L)。这里的波浪号表示忽略对数因子,实际复杂度可能包含 log⁡\loglog 项。定理的关键在于将复杂的卷积核计算转化为4次Cauchy矩阵乘法。Cauchy矩阵是形如 Cij=1xi−yjC_{ij} = \frac{1}{x_i - y_j}Cij=xiyj1 的矩阵,这种结构在数值分析中有专门的快速算法。通过这种转化,原本需要计算长度为L的卷积核的每个元素(涉及矩阵幂运算)的问题,变成了在复平面上特定点处评估有理函数的问题。空间复杂度 O(N+L)O(N+L)O(N+L) 说明算法的内存需求与状态维度和序列长度呈线性关系,这对于处理长序列非常重要。

Appendix C, Definition 3 formally defines Cauchy matrices, which are related to rational interpolation problems. Computing with Cauchy matrices is an extremely well-studied problem in numerical analysis, with both fast arithmetic and numerical algorithms based on the famous Fast Multipole Method (FMM) [ 29 , 30 , 31 ]. The computational complexities of these algorithms under various settings are described in Appendix C, Proposition 5.

【翻译】附录C,定义3正式定义了Cauchy矩阵,它与有理插值问题相关。Cauchy矩阵的计算是数值分析中一个被广泛研究的问题,基于著名的快速多极方法(FMM)有快速算术和数值算法[29, 30, 31]。这些算法在各种设置下的计算复杂度在附录C,命题5中描述。

【解析】Cauchy矩阵在数学中有着悠久的研究历史,特别是在有理函数插值、数值积分、和偏微分方程求解等领域。有理插值是指用有理函数(多项式的比值)来逼近给定的数据点或函数,这与SSM中的生成函数方法密切相关。快速多极方法(FMM)是计算物理学中的重要算法,最初用于解决N体问题,后来被推广到各种涉及核函数计算的问题。FMM的核心思想是通过层次化的空间分解和多极展开来加速远场相互作用的计算,将原本 O(N2)O(N^2)O(N2) 的计算降低到 O(Nlog⁡N)O(N \log N)O(NlogN) 或甚至 O(N)O(N)O(N)。对于Cauchy矩阵,FMM可以高效计算矩阵-向量乘法,这正是S4算法所需要的核心操作。

We reiterate that Theorem 3 is our core technical contribution, and its algorithm is the very motivation of the NPLR S4 parameterization. This algorithm is formally sketched in Algorithm 1.

【翻译】我们重申定理3是我们的核心技术贡献,其算法正是NPLR S4参数化的动机。该算法在算法1中正式概述。

【解析】这句话强调了整个S4方法的设计逻辑。NPLR参数化不是随意选择的,而是专门为了支持定理3中的高效算法而设计的。首先识别出计算瓶颈(卷积核的计算),然后设计特殊的矩阵参数化(NPLR),使得这个瓶颈可以通过已知的高效算法(Cauchy矩阵计算)来解决。算法1提供了具体的实现步骤,将抽象的数学理论转化为可执行的计算过程。

Table 1: Complexity of various sequence models in terms of sequence length ( L\pmb{L}L ), batch size ( B_BB ), and hidden dimension ( H\pmb{H}H ); tildes denote log factors. Metrics are parameter count, training computation, training space requirement, training parallelizability, and inference computation (for 1 sample and time-step). For simplicity, the state size NNN of S4 is tied to HHH . Bold denotes model is theoretically best for that metric. Convolutions are efficient for training while recurrence is efficient for inference, while SSMs combine the strengths of both.
在这里插入图片描述

【翻译】表1:各种序列模型在序列长度(L\pmb{L}L)、批次大小(B_BB)和隐藏维度(H\pmb{H}H)方面的复杂度;波浪号表示对数因子。指标包括参数数量、训练计算量、训练空间需求、训练并行化能力和推理计算量(针对1个样本和时间步)。为简化起见,S4的状态大小 NNNHHH 绑定。粗体表示该模型在该指标上理论最优。卷积在训练时高效,而递归在推理时高效,SSM结合了两者的优势。

3.4 深度S4层的架构细节

Concretely, an S4 layer is parameterized as follows. First initialize a SSM with A\pmb{A}A set to the HiPPO matrix (2) . By mma 3.1 and Theorem 1, this SSM is unitarily equiva t to some (Λ−PQ∗,B,C)(\pmb{\Lambda}-P\pmb{Q}^{*},\pmb{B},C)(ΛPQ,B,C) for some diagonal Λ and vectors P,Q,B,C∈CN×1P,Q,B,C\in\mathbb{C}^{N\times1}P,Q,B,CCN×1 . These comprise S4’s 5 5N5N5N trainable parameters.

【翻译】具体地,S4层的参数化如下。首先用 A\pmb{A}A 设置为HiPPO矩阵(2)来初始化SSM。根据引理3.1和定理1,这个SSM酉等价于某个 (Λ−PQ∗,B,C)(\pmb{\Lambda}-P\pmb{Q}^{*},\pmb{B},C)(ΛPQ,B,C),其中 Λ\LambdaΛ 是对角矩阵,向量 P,Q,B,C∈CN×1P,Q,B,C\in\mathbb{C}^{N\times1}P,Q,B,CCN×1。这些构成了S4的 5N5N5N 个可训练参数。

【解析】这段话描述了S4层的具体实现细节。首先从HiPPO矩阵开始构建SSM,这不是随意选择的,而是基于HiPPO理论的数学基础,该理论提供了连续时间记忆的最优逼近。酉等价变换是线性代数中保持矩阵谱性质的重要变换,通过这种变换可以将复杂的HiPPO矩阵转化为更易处理的DPLR形式。变换后的形式 (Λ−PQ∗,B,C)(\pmb{\Lambda}-P\pmb{Q}^{*},\pmb{B},C)(ΛPQ,B,C) 中,Λ\LambdaΛ 是对角矩阵包含特征值信息,PPPQQQ 是复向量构成低秩修正项,BBBCCC 分别是输入和输出映射向量。参数总数为 5N5N5N 是因为需要存储:对角矩阵 Λ\LambdaΛNNN 个对角元素,两个复向量 PPPQQQNNN 个元素,以及输入输出向量 BBBCCCNNN 个元素。

The overall deep neural network (DNN) architecture of S4 is similar to prior work. As defined above, S4 defines a map from RL→RL\mathbb{R}^{L}\to\mathbb{R}^{L}RLRL , i.e. a 1-D sequence map. Typ ally, DNNs operate on feature maps of size HHH instead of 1. S4 handles multiple features by simply defining H independent copies of itself, and then mixing the HHH features with a position-wise linear layer for a total of O(H2)+O(HN)O(H^{2})+O(H N)O(H2)+O(HN) parameters per layer. Nonlinear activation functions are also inserted between these layers. Overall, S4 defines a sequence-to-sequence map of shape (batch size, sequence length, hidden dimension), exactly the same as related sequence models such as Transformers, RNNs, and CNNs.

【翻译】S4的整体深度神经网络(DNN)架构与先前工作相似。如上所定义,S4定义了从 RL→RL\mathbb{R}^{L}\to\mathbb{R}^{L}RLRL 的映射,即一维序列映射。通常,DNN操作的是大小为 HHH 的特征图而不是1。S4通过简单地定义 HHH 个独立的自身副本来处理多个特征,然后用逐位置线性层混合这 HHH 个特征,每层总共有 O(H2)+O(HN)O(H^{2})+O(H N)O(H2)+O(HN) 个参数。非线性激活函数也插入在这些层之间。总体而言,S4定义了形状为(批次大小,序列长度,隐藏维度)的序列到序列映射,与Transformer、RNN和CNN等相关序列模型完全相同。

【解析】这段话说明了S4如何从单通道扩展到多通道处理,以及如何集成到深度网络架构中。单个S4模块本质上处理一维序列,但实际应用中需要处理多维特征。解决方案是并行运行 HHH 个独立的S4副本,每个副本处理一个特征维度,这类似于深度可分离卷积的思想。然后通过逐位置线性层(类似于1×1卷积)来混合不同特征维度的信息,这个线性层的参数复杂度是 O(H2)O(H^2)O(H2),而 HHH 个S4副本的总参数是 O(HN)O(HN)O(HN)。非线性激活函数的加入使得整个深度网络具备非线性表达能力,尽管单个S4层是线性的。最终的输入输出格式与标准的序列模型保持一致,这确保了S4可以作为现有架构的直接替代品,便于在各种任务中应用和比较。

Note that the core S4 module is a linear transformation, but the addition of non-linear transformations through the depth of the network makes the overall deep SSM non-linear. This is analogous to a vanilla CNN, since convolutional layers are also linear. The broadcasting across HHH hidden features described in this section is also analogous to depthwise-separable convolutions. Thus, the overall deep S4 model is closely related to a depthwise-separable CNN but with global convolution kernels.

【翻译】注意核心S4模块是线性变换,但通过网络深度添加非线性变换使得整体深度SSM变为非线性。这类似于普通CNN,因为卷积层也是线性的。本节描述的跨 HHH 个隐藏特征的广播也类似于深度可分离卷积。因此,整体深度S4模型与深度可分离CNN密切相关,但具有全局卷积核。

【解析】这段话澄清了S4模型的线性与非线性特性。单个S4模块本质上执行线性变换,就像单个卷积层一样。但是当多个S4层堆叠并在层间插入非线性激活函数时,整个深度网络就获得了非线性表达能力。这种设计哲学与CNN完全一致:卷积操作本身是线性的,但深度CNN通过层间的非线性激活函数实现复杂的非线性映射。S4在处理多个隐藏特征时采用的广播机制与深度可分离卷积的思想相似,即先对每个通道独立处理,再通过逐点卷积混合通道信息。关键区别在于S4使用的是全局卷积核,这些核的长度等于整个序列长度,而传统CNN使用局部卷积核。这种全局性质使S4能够直接建模长距离依赖关系。

Finally, we note that follow-up work found that this version of S4 can sometimes suffer from numerical instabilities when the A\pmb{A}A matrix has eigenvalues on the right half-plane [ 14 ]. It introduced a slight change to the NPLR parameterization for S4 from Λ−PQ∗\Lambda-P Q^{*}ΛPQ to Λ−PP∗\Lambda-P P^{*}ΛPP that corrects this potential problem.

【翻译】最后,我们注意到后续工作发现当 A\pmb{A}A 矩阵在右半平面有特征值时,这个版本的S4有时会遭受数值不稳定性[14]。它对S4的NPLR参数化进行了轻微改变,从 Λ−PQ∗\Lambda-P Q^{*}ΛPQ 改为 Λ−PP∗\Lambda-P P^{*}ΛPP,纠正了这个潜在问题。

【解析】这段话指出了原始S4实现中的一个重要技术问题。在复分析中,复平面被虚轴分为左半平面和右半平面。对于动力系统,特征值在左半平面通常对应稳定系统,而右半平面的特征值可能导致不稳定行为。当矩阵 A\pmb{A}A 的特征值位于右半平面时,在数值计算过程中可能出现指数增长的项,导致计算结果溢出或精度损失。原始的NPLR参数化 Λ−PQ∗\Lambda-P Q^{*}ΛPQ 中,PPPQQQ 是两个独立的复向量,这种形式在某些情况下无法保证数值稳定性。改进后的参数化 Λ−PP∗\Lambda-P P^{*}ΛPP 使用了 PPP 的共轭转置,这种形式具有更好的数学性质,特别是 PP∗P P^{*}PP 是半正定矩阵,有助于维持系统的稳定性。

Table 1 compares the complexities of the most common deep sequence modeling mechanisms.

【翻译】表1比较了最常见的深度序列建模机制的复杂度。

4 Experiments

Section 4.1 benchmarks S4 against the LSSL and efficient Transformer models. Section 4.2 validates S4 on LRDs: the LRA benchmark and raw speech classification. Section 4.3 investigates whether S4 can be used as a general sequence model to perform effectively and efficiently in a wide variety of settings including image classification, image and text generation, and time series forecasting.

4.1 S4效率基准测试

We benchmark that S4 can be trained quickly and efficiently, both compared to the LSSL, as well as efficient Transformer variants designed for long-range sequence modeling. As outlined in Section 3, S4 is theoretically much more efficient than the LSSL, and Table 2 confirms that the S4 is orders of magnitude more speed- and memory-efficient for practical layer sizes. In fact, S4’s speed and memory use is competitive with the most efficient Transformer variants benchmarked by Tay et al. [40] —Linear Transformer [ 22 ] and Performer [ 8 ]—in a parameter-matched setting (Table 3, following the protocol of Tay et al. [40]).

【翻译】我们基准测试表明S4可以快速高效地训练,无论是与LSSL相比,还是与专为长距离序列建模设计的高效Transformer变体相比。如第3节所述,S4在理论上比LSSL更高效,表2证实了S4在实际层大小下在速度和内存效率方面比LSSL高出几个数量级。事实上,S4的速度和内存使用与Tay等人[40]基准测试的最高效Transformer变体——Linear Transformer[22]和Performer[8]——在参数匹配设置下具有竞争力(表3,遵循Tay等人[40]的协议)。

Table 2: Deep SSMs: The S4 parameterization with Algorithm 1 is asymptotically more efficient than the LSSL.
在这里插入图片描述

【翻译】表2:深度SSM:使用算法1的S4参数化在渐近意义上比LSSL更高效。

Table 3: Benchmarks vs. efficient Transformers
在这里插入图片描述

【翻译】表3:与高效Transformer的基准比较

在这里插入图片描述
Figure 2: Visualizations of a trained S4 model on LRA Path-X. SSM convolution kernels K‾∈R16384\overline{{K}}\in\mathbb{R}^{16384}KR16384 are reshaped into a 128×128128\times128128×128 image. ( Left ) Example from the Path-X task, which involves deducing if the markers are connected by a path ( Top ) Filters from the first layer ( Bottom ) Filters from the last layer.

【翻译】图2:在LRA Path-X上训练的S4模型的可视化。SSM卷积核 K‾∈R16384\overline{{K}}\in\mathbb{R}^{16384}KR16384 被重塑为 128×128128\times128128×128 图像。(左)Path-X任务的示例,涉及推断标记是否通过路径连接(上)第一层的滤波器(下)最后一层的滤波器。

Table 4: ( Long Range Arena ) ( Top ) Original Transformer variants in LRA. Full results in Appendix D.2. ( Bottom ) Other models reported in the literature. Please read Appendix D.5 before citing this table.
在这里插入图片描述

【翻译】表4:(长距离竞技场)(上)LRA中的原始Transformer变体。完整结果见附录D.2。(下)文献中报告的其他模型。引用此表前请阅读附录D.5。

4.2 学习长距离依赖关系

As described in Sections 2.2 and 3.1, S4 uses a principled approach to address LRDs based on the HiPPO theory of continuous-time memorization. Our goal in this section is to validate that S4 achieves high performance on difficult tasks that require long-range reasoning. We focus here on two problems: (i) the Long-Range Arena, a well-known benchmark designed to test efficient sequence models on LRDs, and (ii) a speech classification problem as a real-world test of LRDs.

【翻译】如第2.2节和第3.1节所述,S4使用基于HiPPO连续时间记忆理论的原则性方法来解决LRD问题。本节的目标是验证S4在需要长距离推理的困难任务上实现高性能。我们这里关注两个问题:(i) 长距离竞技场,一个著名的基准测试,旨在测试高效序列模型在LRD上的表现,以及(ii) 语音分类问题作为LRD的真实世界测试。

Long Range Arena (LRA). LRA [ 40 ] contains 6 tasks with lengths 1K-16K steps, encompassing modalities and objectives that require similarity, structural, and visuospatial reasoning. Table 4 compares S4 against the 11 Transformer variants from Tay et al. [40] as well as follow-up work. S4 substantially advances the SoTA, outperforming all baselines on all tasks and averaging 80 . 48% compared to less than 60% for every baseline. Notably, S4 solves the Path-X task, an extremely challenging task that involves reasoning about LRDs over sequences of length 128×128=16384128\times128=16384128×128=16384 . All previous models have failed (i.e. random guessing) due to memory or computation bottlenecks, or simply being unable to learn such long dependencies.

【翻译】长距离竞技场(LRA)。LRA[40]包含6个任务,长度为1K-16K步,涵盖需要相似性、结构性和视觉空间推理的模态和目标。表4将S4与Tay等人[40]的11个Transformer变体以及后续工作进行比较。S4大幅推进了最先进水平,在所有任务上都优于所有基线,平均得分80.48%,而每个基线都低于60%。值得注意的是,S4解决了Path-X任务,这是一个极具挑战性的任务,涉及对长度为128×128=16384128\times128=16384128×128=16384的序列进行LRD推理。由于内存或计算瓶颈,或者根本无法学习如此长的依赖关系,所有先前的模型都失败了(即随机猜测)。

We analyze S4’s performance on Path-X by visualizing its learned representations, in particular 1-D convolution kernels κ‾\overline{{\kappa}}κ which are the focus of our technical results in Section 3. Fig. 2 shows that S4 learns a variety of filters that display spatially consistent structure and demonstrate awareness of the 2-D nature of the data. In particular, the lower layers learn simple kernels that extract features from just a few rows of local context while ignoring the rest of the image. On the other hand, higher layers aggregate information globally across full columns of the image at varying spatial frequencies. Filters in these higher layers span the entire context (16384 pixels), confirming S4’s ability to learn LRDs.

【翻译】我们通过可视化S4学习到的表示来分析其在Path-X上的性能,特别是一维卷积核κ‾\overline{{\kappa}}κ,这是我们第3节技术结果的重点。图2显示S4学习了各种滤波器,这些滤波器显示出空间一致的结构并展现出对数据二维性质的感知。特别是,较低层学习简单的核,仅从几行局部上下文中提取特征,而忽略图像的其余部分。另一方面,较高层在不同空间频率下全局聚合整个图像列的信息。这些较高层中的滤波器跨越整个上下文(16384像素),证实了S4学习LRD的能力。

Raw Speech Classification. Speech is a typical real-world time series domain, involving signals sampled from an underlying physical process at high frequency. We perform speech classification using the SC10 subset of the Speech Commands dataset [ 47 ] (see Appendix D.5). While most sequence models for speech rely on extensive preprocessing (e.g. to MFCC features), we classify raw speech (length-16000) following Romero et al. [35] . S4 achieves 98.3%98.3\%98.3% accuracy, higher than all baselines that use the 100 ×\times× shorter MFCC features, and validates that a powerful LRD model is able to extract more information from the raw data and outperform hand-crafted pre-processing. Additionally, we include a baseline CNN specifically designed for raw speech, the discriminator from the WaveGAN model [ 11 ], which performs worse than S4 while having 90 ×\times× more parameters and incorporating many more architectural heuristics (Appendix D.2).

【翻译】原始语音分类。语音是典型的真实世界时间序列领域,涉及从底层物理过程高频采样的信号。我们使用语音命令数据集[47]的SC10子集进行语音分类(见附录D.5)。虽然大多数语音序列模型依赖于大量预处理(例如转换为MFCC特征),但我们遵循Romero等人[35]的方法对原始语音(长度16000)进行分类。S4达到了98.3%的准确率,高于所有使用短100倍的MFCC特征的基线,验证了强大的LRD模型能够从原始数据中提取更多信息并优于手工制作的预处理。此外,我们还包括了专门为原始语音设计的基线CNN,即WaveGAN模型[11]的判别器,它的表现比S4差,同时拥有90倍更多的参数并融入了更多架构启发式方法(附录D.2)。

4.3 S4作为通用序列模型

A key goal of sequence modeling research is to develop a single model that can be applied in many domains (e.g. images, audio, text, time-series) with a broad range of capabilities (e.g. efficient training, fast generation, handling irregularly sampled data). As a fundamental scientific model, SSMs are a promising candidate that come with a range of capabilities, and S4’s strong results on LRD benchmarks spanning images, text, and speech are evidence of S4’s potential as a general sequence model. In this section, we focus on understanding this question in more depth by highlighting key strengths of S4 in settings that usually require specialized models. The tasks we focus on (generative modeling, image classification, time-series forecasting) are considered as LRD tasks in the literature, and serve as additional validation that S4 handles LRDs efficiently.

【翻译】序列建模研究的一个关键目标是开发一个可以应用于多个领域(例如图像、音频、文本、时间序列)并具有广泛能力(例如高效训练、快速生成、处理不规则采样数据)的单一模型。作为一个基础科学模型,SSM是一个有前途的候选者,具有一系列能力,S4在跨越图像、文本和语音的LRD基准测试上的强劲结果证明了S4作为通用序列模型的潜力。在本节中,我们通过突出S4在通常需要专门模型的设置中的关键优势,专注于更深入地理解这个问题。我们关注的任务(生成建模、图像分类、时间序列预测)在文献中被认为是LRD任务,并作为S4高效处理LRD的额外验证。

Table 5: ( SC10 classification ) Transformer, CTM, RNN, CNN, and SSM models. ( MFCC ) Standard preprocessed MFCC features (length 161). ( Raw ) Unprocessed signals (length 16000). (0.5×)(0.5\times)(0.5×) Frequency change at test time. χ\pmb{\chi}χ denotes not applicable or computationally infeasible on single GPU. Please read Appendix D.5 before citing this table.
在这里插入图片描述

【翻译】表5:(SC10分类)Transformer、CTM、RNN、CNN和SSM模型。(MFCC)标准预处理的MFCC特征(长度161)。(Raw)未处理信号(长度16000)。(0.5×)(0.5\times)(0.5×)测试时的频率变化。χ\pmb{\chi}χ表示不适用或在单GPU上计算不可行。引用此表前请阅读附录D.5。

Table 6: ( Pixel-level 1-D image classification ) Comparison against reported test accuracies from prior works (Transformer, RNN, CNN, and SSM models). Extended results and citations in Appendix D.
在这里插入图片描述

【翻译】表6:(像素级一维图像分类)与先前工作报告的测试准确率的比较(Transformer、RNN、CNN和SSM模型)。扩展结果和引用见附录D。

Table 7: (CIFAR-10 density estimation) As a generic sequence model, S4 is competitive with previous autoregressive models (in bits per dim.) while incorporating no 2D inductive bias, and has fast generation through its recurrence mode.
在这里插入图片描述

【翻译】表7:(CIFAR-10密度估计)作为通用序列模型,S4与之前的自回归模型(以每维比特数计)具有竞争力,同时不包含二维归纳偏置,并通过其递归模式实现快速生成。

Table 8: (WikiText-103 language modeling) S4 approaches the performance of Transformers with much faster generation. (\textit{Top}) Transformer baseline which our implementation is based on, with attention replaced by S4. (\textit{Bottom}) Attention-free models (RNNs and CNNs).
在这里插入图片描述

【翻译】表8:(WikiText-103语言建模)S4接近Transformer的性能,同时生成速度更快。(上)我们实现基于的Transformer基线,用S4替换注意力机制。(下)无注意力模型(RNN和CNN)。

Large-scale generative modeling. We investigate two well-studied image and text benchmarks to validate the scalability, flexibility, and efficiency of S4. These tasks require much larger models than our previous tasks – up to 250M parameters.

【翻译】大规模生成建模。我们研究了两个经过充分研究的图像和文本基准测试,以验证S4的可扩展性、灵活性和效率。这些任务需要比我们之前的任务更大的模型——高达2.5亿参数。

First, CIFAR density estimation is a popular benchmark for autoregressive models, where images are flattened into a sequence of 3072 RGB subpixels that are predicted one by one. Table 7 shows that with no 2D inductive bias , S4 is competitive with the best models designed for this task.

【翻译】首先,CIFAR密度估计是自回归模型的流行基准测试,其中图像被展平为3072个RGB子像素的序列,逐个进行预测。表7显示,在没有二维归纳偏置的情况下,S4与为此任务设计的最佳模型具有竞争力。

Second, WikiText-103 is an established benchmark for language modeling, an important task for large-scale sequence models where tokens are predicted sequentially based on past context. Although RNNs were the model of choice for many years, Transformers are now the dominant model in such applications that contain data that is inherently discrete. We show that alternative models to Transformers can still be competitive in these settings. By simply taking a strong Transformer baseline [ 2 ] and replacing the self-attention layers, S4 substantially closes the gap to Transformers (within 0 . 8 ppl), setting SoTA for attention-free models by over 2 ppl.

【翻译】其次,WikiText-103是语言建模的既定基准测试,这是大规模序列模型的重要任务,其中基于过去上下文顺序预测标记。尽管RNN多年来一直是首选模型,但Transformer现在在包含本质上离散数据的此类应用中占主导地位。我们表明,Transformer的替代模型在这些设置中仍然可以具有竞争力。通过简单地采用强大的Transformer基线[2]并替换自注意力层,S4大幅缩小了与Transformer的差距(在0.8 ppl内),为无注意力模型设定了超过2 ppl的最先进水平。

Fast autoregressive inference. A prominent limitation of autoregressive models is inference speed (e.g. generation), since they require a pass over the full context for every new sample. Several methods have been specifically crafted to overcome this limitation such as the Linear Transformer, a hybrid Transformer/RNN that switches to a stateful, recurrent view at inference time for speed.

【翻译】快速自回归推理。自回归模型的一个突出限制是推理速度(例如生成),因为它们需要为每个新样本遍历完整上下文。已经专门制作了几种方法来克服这一限制,例如Linear Transformer,这是一个混合Transformer/RNN,在推理时切换到有状态的递归视图以提高速度。

As a stateful model, SSMs automatically have this ability (Fig. 1). By switching to its recurrent representation (Section 2.3), S4 requires constant memory and computation per time step – in contrast to standard autoregressive models which scale in the context length. On both CIFAR-10 and WikiText-103, we report the throughput of various models at generation time, with S4 around 60 ×\times× faster than a vanilla Transformer on both tasks (details in Appendix D.3.3).

【翻译】作为有状态模型,SSM自动具有这种能力(图1)。通过切换到其递归表示(第2.3节),S4每个时间步需要恒定的内存和计算——与在上下文长度上扩展的标准自回归模型形成对比。在CIFAR-10和WikiText-103上,我们报告了各种模型在生成时的吞吐量,S4在两个任务上都比普通Transformer快约60倍(详见附录D.3.3)。

Sampling resolution change. As a continuous-time model, S4 automatically adapts to data sampled at different rates, a challenging setting for time series with a dedicated line of work [ 10 , 35 , 37 ]. Without re-training, S4 achieves 96.3%96.3\%96.3% curacy at 0.5×0.5\times0.5× the frequency on Speech Commands 10 (Table 5), simply by changing its internal step size ∆ (Section 2.3).

【翻译】采样分辨率变化。作为连续时间模型,S4自动适应以不同速率采样的数据,这对于时间序列来说是一个具有专门研究方向的挑战性设置[10, 35, 37]。无需重新训练,S4在语音命令10上以0.5倍频率达到96.3%的准确率(表5),仅通过改变其内部步长∆(第2.3节)。

Learning with weaker inductive bias. Beyond our results on speech (Section 4.2), we further validate that S4 can be applied with minimal modifications on two domains that typically require specialized domainspecific preprocessing and architectures. First, we compare S4 to the Informer [ 50 ], a new Transformer architecture that uses a complex encoder-decoder designed for time-series forecasting problems. A simple application of S4 that treats forecasting as a masked sequence-to-sequence transformation (Fig. 5) outperforms the Informer and other baselines on 40 / 50 settings across 5 forecasting tasks. Notably, S4 is better on the longest setting in each task, e.g. reducing MSE by 37% when forecasting 30 days of weather data (Table 9).

【翻译】使用较弱归纳偏置的学习。除了我们在语音方面的结果(第4.2节),我们进一步验证了S4可以在通常需要专门的领域特定预处理和架构的两个领域中以最小修改应用。首先,我们将S4与Informer[50]进行比较,这是一个新的Transformer架构,使用为时间序列预测问题设计的复杂编码器-解码器。S4的简单应用将预测视为掩码序列到序列转换(图5),在5个预测任务的40/50个设置上优于Informer和其他基线。值得注意的是,S4在每个任务的最长设置上表现更好,例如在预测30天天气数据时将MSE降低37%(表9)。

Finally, we evaluate S4 on pixel-level sequential image classification tasks (Table 6), popular benchmarks which were originally LRD tests for RNNs [ 1 ]. Beyond LRDs, these benchmarks point to a recent effort of the ML community to solve vision problems with reduced domain knowledge, in the spirit of models such as Vision Transformers [ 12 ] and MLP-Mixer [ 41 ] which involve patch-based models that without 2-D inductive bias. Sequential CIFAR is a particularly challenging dataset where outside of SSMs, all sequence models have a gap of over 25% to a simple 2-D CNN. By contrast, S4 is competitive with a larger ResNet18 (7.9M vs. 11.0M parameters), both with ( 93.16% vs. 95.62%95.62\%95.62% ) or without ( 91.12% vs. 89.46%89.46\%89.46% ) data augmentation. Moreover, it is much more robust to other architectural choices (e.g. 90.46%\mathbf{90.46\%}90.46% vs. 79.52%79.52\%79.52% when swapping BatchNorm for LayerNorm).

【翻译】最后,我们在像素级顺序图像分类任务(表6)上评估S4,这些是流行的基准测试,最初是RNN的LRD测试[1]。除了LRD之外,这些基准测试指向ML社区最近努力用减少的领域知识解决视觉问题,这符合Vision Transformer[12]和MLP-Mixer[41]等模型的精神,这些模型涉及没有二维归纳偏置的基于补丁的模型。顺序CIFAR是一个特别具有挑战性的数据集,除了SSM之外,所有序列模型与简单的二维CNN都有超过25%的差距。相比之下,S4与更大的ResNet18(7.9M vs. 11.0M参数)具有竞争力,无论是有数据增强(93.16% vs. 95.62%)还是没有数据增强(91.12% vs. 89.46%)。此外,它对其他架构选择更加鲁棒(例如,将BatchNorm替换为LayerNorm时为90.46% vs. 79.52%)。

4.4 SSM消融实验:HiPPO的重要性

A critical motivation of S4 was the use of the HiPPO matrices to initialize an SSM. We consider several simplifications of S4 to ablate the importance of each of these components, including: (i) how important is the HiPPO initialization? (ii) how important is training the SSM on top of HiPPO? (iii) are the benefits of S4 captured by the NPLR parameterization without HiPPO?

【翻译】S4的一个关键动机是使用HiPPO矩阵来初始化SSM。我们考虑S4的几种简化来消融这些组件的重要性,包括:(i) HiPPO初始化有多重要?(ii) 在HiPPO基础上训练SSM有多重要?(iii) S4的好处是否可以通过没有HiPPO的NPLR参数化来捕获?

As a simple testbed, all experiments in this section were performed on the sequential CIFAR-10 task, whicih we found transferred well to other settings. Models were constrained to at most 100K trainable parameters and trained with a simple plateau learning rate scheduler and no regularization.

【翻译】作为简单的测试平台,本节中的所有实验都在顺序CIFAR-10任务上进行,我们发现这很好地转移到其他设置。模型被限制为最多100K个可训练参数,并使用简单的平台学习率调度器进行训练,没有正则化。

Unconstrained SSMs. We first investigate generic SSMs with various initializations. We consider a random Gaussian initialization (with variance scaled down until it did not NaN), and the HiPPO initialization. We also consider a random diagonal Gaussian matrix as a potential structured method; parameterizing A\pmb{A}A as a diagonal matrix would allow substantial speedups without going through the complexity of S4’s NPLR parameterization. We consider both freezing the A\pmb{A}A matrix and training it.

【翻译】无约束SSM。我们首先研究具有各种初始化的通用SSM。我们考虑随机高斯初始化(方差缩小直到不出现NaN)和HiPPO初始化。我们还考虑随机对角高斯矩阵作为潜在的结构化方法;将A\pmb{A}A参数化为对角矩阵将允许大幅加速,而无需经历S4的NPLR参数化的复杂性。我们考虑冻结A\pmb{A}A矩阵和训练它两种情况。

Fig. 3 shows both training and validation curves, from which we can make several observations. First, training the SSM improved all methods, particularly the randomly initialized ones. For all methods, training the SSM led to improvements in both training and validation curves.

【翻译】图3显示了训练和验证曲线,从中我们可以得出几个观察结果。首先,训练SSM改善了所有方法,特别是随机初始化的方法。对于所有方法,训练SSM都导致训练和验证曲线的改善。

Second, a large generalization gap exists between the initializations. In particular, note that when A\pmb{A}A is trained, all initializations are able to reach perfect training accuracy. However, their validation accuracies are separated by over 15%15\%15% .

【翻译】其次,初始化之间存在很大的泛化差距。特别注意,当训练A\pmb{A}A时,所有初始化都能够达到完美的训练准确率。然而,它们的验证准确率相差超过15%。

NPLR SSMs. The previous experiment validates the importance of HiPPO in SSMs. This was the main motivation of the NPLR algorithm in S4, which utilizes structure of the HiPPO matrix (2) to make SSMs computationally feasible. Fig. 4a shows that random NPLR matrices still do not perform well, which validates that S4’s effectiveness primarily comes from the HiPPO initialization, not the NPLR parameterization.

【翻译】NPLR SSM。之前的实验验证了HiPPO在SSM中的重要性。这是S4中NPLR算法的主要动机,它利用HiPPO矩阵(2)的结构使SSM在计算上可行。图4a显示随机NPLR矩阵仍然表现不佳,这验证了S4的有效性主要来自HiPPO初始化,而不是NPLR参数化。

Finally, Fig. 4b considers the main ablations considered in this section (with trainable SSMs) and adds minor regularization. With 0.1 Dropout, the same trends still hold, and the HiPPO initialization—in other words, the full S4 method—achieves 84 . 27% test accuracy with just 100K parameters.

【翻译】最后,图4b考虑了本节中考虑的主要消融(使用可训练SSM)并添加了轻微的正则化。使用0.1 Dropout,相同的趋势仍然成立,HiPPO初始化——换句话说,完整的S4方法——仅用100K参数就达到了84.27%的测试准确率。

Table 9: Univariate long sequence time-series forecasting results. Full results in Appendix D.3.5.
在这里插入图片描述

【翻译】表9:单变量长序列时间序列预测结果。完整结果见附录D.3.5。

在这里插入图片描述
Figure 3: CIFAR-10 classification with unconstrained, real-valued SSMs with various initializations. ( Left ) Train accuracy. ( Right ) Validation accuracy.

【翻译】图3:使用各种初始化的无约束实值SSM进行CIFAR-10分类。(左)训练准确率。(右)验证准确率。

在这里插入图片描述
Figure 4: CIFAR-10 validation accuracy of SSMs with different initializations and parameterizations. ( Left ) NPLR parameterization with random versus HiPPO initialization. ( Right ) All methods considered in this section, including minor Dropout regularization. S4 achieves SotA accuracy on sequential CIFAR-10 with just 100K parameters.

【翻译】图4:具有不同初始化和参数化的SSM在CIFAR-10上的验证准确率。(左)随机初始化与HiPPO初始化的NPLR参数化。(右)本节中考虑的所有方法,包括轻微的Dropout正则化。S4仅用100K参数就在顺序CIFAR-10上达到了最先进的准确率。

5 Conclusion

We introduce S4, a sequence model that uses a new parameterization for the state space model’s continuoustime, recurrent, and convolutional views to efficiently model LRDs in a principled manner. Results across established benchmarks evaluating a diverse range of data modalities and model capabilities suggest that S4 has the potential to be an effective general sequence modeling solution.

【翻译】我们介绍了S4,这是一个序列模型,它为状态空间模型的连续时间、递归和卷积视图使用新的参数化,以有原则的方式高效建模LRD。在评估各种数据模态和模型能力的既定基准测试中的结果表明,S4有潜力成为有效的通用序列建模解决方案。

http://www.dtcms.com/a/277200.html

相关文章:

  • [Rust 基础课程]Hello World
  • 数据结构 单链表(2)--单链表的实现
  • 聊一聊Java生态接口测试常见的框架
  • 在 Spring Boot 中使用 MyBatis 的 XML 文件编写 SQL 语句详解
  • MySQL SQL语句精要:DDL、DML与DCL的深度探究
  • Design Compiler:什么是代价函数(Cost Function)
  • HarmonyOS组件/模板集成创新活动-元服务小云体重管理引入案例(步骤条UI组件)
  • python赤道上空的大气环流剖面图(纬向-高度剖面)
  • 多级@JsonTypeInfo和@JsonSubTypes注解使用详解及场景分析
  • 剑指offer59_翻转单词顺序
  • Redis 命令总结
  • Docker三剑客
  • Docker 基于 Cgroups 实现资源限制详解【实战+源码】
  • 从一个想法到一套软件——我的AI质检平台设计蓝图
  • 03.Python 字符串中的空白字符处理
  • 【爬虫】02 - 静态页面的抓取和解析
  • HTTP与HTTPS详解
  • 面试150 填充每个节点的下一个右侧节点指针Ⅱ
  • python函数快捷的传变量地址
  • 2025江苏省信息安全管理与评估赛项二三阶段任务书
  • docker 设置代理以及配置镜像加速
  • 【C++】优先队列简介与模拟实现 + 仿函数
  • Matplotlib(一)- 数据可视化与Matplotlib
  • 关于数据库的慢查询
  • python3的可变参数如何传递元组和字典
  • 一文讲懂填充与步幅
  • 《Google 软件工程》:如何写好文档?
  • 3. 【Blazor全栈开发实战指南】--Blazor是什么?为什么选择Blazor?
  • 在AI应用中Prompt撰写重要却难掌握,‘理解模型与行业知识是关键’:提升迫在眉睫
  • 【读书笔记】《Effective Modern C++》第4章 Smart Pointers