当前位置：首页 > news >正文

51c视觉~3D~合集7

news 2025/10/12 16:14:09

我自己的原文哦~ https://blog.51cto.com/whaosoft/14235856

#3D Sliding Window Attention, SWA

神经视频压缩新模型：3D-SWA，解码器提速2.8倍，视频压缩迎来无patch新范式

最近，来自德国顶尖学府埃尔朗根-纽伦堡大学（FAU）的研究者，为我们带来了一项视频压缩领域的新突破。他们提出了一种名为 3D滑动窗口注意力（3D Sliding Window Attention, SWA） 的新方法，旨在解决当前基于Transformer的视频压缩技术中存在的效率和性能瓶颈。

这项技术最亮眼的地方在于，它不仅在压缩性能上实现了显著提升，还将解码器的计算复杂度降低了 2.8倍，让高效视频编解码的未来又多了一种可能。

论文标题: Sliding Window Attention for Learned Video Compression
作者: Alexander Kopte, André Kaup
机构: 埃尔朗根-纽伦堡大学
论文地址: https://arxiv.org/abs/2510.03926
会议: Picture Coding Symposium (PCS) 2025

视频压缩的“补丁”之痛

聊到今天的主角SWA之前，我们得先看看它想解决什么问题。

近年来，Transformer在计算机视觉领域大放异彩，视频压缩也不例外。像视频压缩变换器（Video Compression Transformer, VCT）这样的模型，通常会把视频帧分割成一个个“补丁”（patch），然后对这些补丁进行处理。

这种方法虽然直观，但带来了几个棘手的问题：

感受野不规则：每个像素能“看到”的邻近信息范围（即感受野）变得不均匀，尤其是在补丁的边界处，信息获取不完整。
信息流受阻：补丁之间存在硬边界，阻碍了信息的流畅传递。想象一下，一个运动的物体从一个补丁移动到另一个，它的特征信息流就会被人为地切断。
计算冗余：为了缓解上述问题，像VCT这样的模型不得不采用重叠窗口（overlapping windows）来提取时间上的上下文信息，但这又导致了大量的重复计算，费时费力。

简单来说，现有的“打补丁”方法在架构上存在天然缺陷，影响了压缩效率和性能。

无需补丁的优雅：3D滑动窗口注意力（SWA）

为了根治“补丁”带来的顽疾，作者提出了 3D滑动窗口注意力（SWA）。这是一种无补丁（patchless）的局部注意力形式，它的核心思想非常优雅。

SWA将注意力机制类比于一个在时空维度上滑动的3D卷积核。对于当前需要处理的任何一个“超像素”（hyperpixel），注意力计算都发生在一个由它周围时空邻居组成的局部窗口内。

如上图所示，紫色的方块是当前正在处理的超像素，蓝色的方块是它过去的时空邻居，注意力就在这个蓝色区域内计算。这种设计带来了几个关键优势：

统一的感受野：每个超像素的感受野都是均匀的，解决了补丁方法中边界像素的尴尬处境。
统一的时空上下文处理：SWA构建了一个纯解码器（decoder-only）的自回归模型，将空间信息和时间信息放在一个统一的框架下处理，不再需要像VCT那样分离处理，信息交互更充分。
告别冗余计算：由于不再需要重叠窗口，之前那些重复的计算被彻底消除，解码器变得更加高效。

为了保证解码过程的因果关系（即解码当前像素只能用已经解码过的信息），模型采用了逐行扫描的顺序。如下图所示，在解码每一行（绿色箭头）的开头，它会把正上方一行（红色）的对应信息作为引子，确保局部注意力窗口总能获取到最相关的空间上下文。

实验效果：更快、更准

作者将他们提出的SWA模型与VCT基线以及其他主流方法（如DCVC-DC、HM、VTM）进行了全面对比。

率失真性能显著提升

在视频压缩里，我们最关心的就是率失真（Rate-Distortion, RD）性能，即在相同的码率（文件大小）下，谁的画质更好。

上图的RD曲线展示了在UVG数据集上的结果，可以看到SWA（红色虚线）在I帧、P帧和整个GOP（图像组）上都稳定优于VCT基线（蓝色虚线）。

量化来看，BD-rate是衡量压缩性能提升的黄金标准，负值越大代表性能提升越明显。

从表格中可以看到，相较于VCT，SWA在所有测试数据集上都取得了可观的BD-rate节省，最高达到了 18.6%！这是一个非常扎实的性能提升。

解码复杂度大幅降低

性能提升的同时，SWA的效率优势也同样惊人。

根据上表的理论计算复杂度分析，SWA模型的总解码器复杂度（kMACs/px）相比VCT降低了约 2.8倍（从2320.64降至838.80）。其中，核心的熵模型（Entropy Model）效率提升了近 3.5倍。这完全得益于其无补丁和无重叠窗口的简洁设计。

上下文长度并非越长越好