当前位置：首页 > news >正文

【AI论文】SLA：通过精细可调的稀疏线性注意力机制突破扩散变换器中的稀疏性局限

news 2025/10/5 8:53:01

摘要：在扩散变换器（Diffusion Transformer, DiT）模型中，尤其是针对视频生成任务时，由于序列长度较长且注意力机制具有平方复杂度，注意力计算延迟成为主要瓶颈。我们发现注意力权重可自然分解为两部分：占比小但秩高的大权重值，以及其余秩很低的权重值。这自然提示我们可对第一部分采用稀疏加速方法，对第二部分采用低秩加速方法。基于这一发现，我们提出了SLA（稀疏线性注意力，Sparse-Linear Attention）——一种融合稀疏注意力与线性注意力的可训练注意力方法，用于加速扩散模型。SLA将注意力权重分为关键、边缘和可忽略三类，对关键权重采用O(N²)复杂度的注意力计算，对边缘权重采用O(N)复杂度的注意力计算，并跳过可忽略权重。SLA将这些计算整合到单个GPU内核中，并支持前向与反向传播。仅需通过SLA进行少量微调步骤，DiT模型的注意力计算量即可减少20倍，从而在保持生成质量不变的情况下实现显著加速。实验表明，SLA在不影响端到端生成质量的前提下，可将注意力计算量减少95%，性能优于基准方法。此外，我们为SLA实现了高效的GPU内核，在Wan2.1-1.3B模型上，注意力计算速度提升了13.7倍，视频生成的端到端速度提升了2.2倍。Huggingface链接：Paper page，论文链接：2509.24006

研究背景和目的

研究背景：

在视频生成领域，Diffusion Transformer (DiT) 模型因其强大的生成能力而备受关注。然而，随着视频序列长度的增加，注意力机制的计算复杂度呈二次方增长，成为制约模型效率的主要瓶颈。特别是在处理长视频序列时，传统的全注意力机制（Full Attention）因其高计算成本而难以满足实时性要求。尽管已有多种稀疏注意力（Sparse Attention）和线性注意力（Linear Attention）方法被提出以减少计算量，但这些方法在实际应用中仍面临诸多挑战。例如，线性注意力方法在视频生成任务中往往难以保持生成质量，而稀疏注意力方法则难以达到非常高的稀疏度。

研究目的：

本研究旨在提出一种新的注意力机制——SLA（Sparse-Linear Attention），通过融合稀疏注意力和线性注意力，以在保持生成质量的同时显著降低计算复杂度。

具体目标包括：

减少计算复杂度：通过将注意力权重分为关键、边缘和可忽略三类，对关键权重应用稀疏注意力，对边缘权重应用线性注意力，并跳过可忽略权重，从而显著降低计算复杂度。
保持生成质量：在减少计算量的同时，确保生成视频的质量不受影响，甚至在某些情况下有所提升。
提高训练效率：通过设计高效的GPU内核和训练策略，使得SLA能够在少量微调步骤内快速适应新任务。