当前位置: 首页 > news >正文

51c视觉~3D~合集7

我自己的原文哦~                   https://blog.51cto.com/whaosoft/14235856      

#3D Sliding Window Attention, SWA

神经视频压缩新模型:3D-SWA,解码器提速2.8倍,视频压缩迎来无patch新范式

最近,来自德国顶尖学府埃尔朗根-纽伦堡大学(FAU)的研究者,为我们带来了一项视频压缩领域的新突破。他们提出了一种名为 3D滑动窗口注意力(3D Sliding Window Attention, SWA) 的新方法,旨在解决当前基于Transformer的视频压缩技术中存在的效率和性能瓶颈。

这项技术最亮眼的地方在于,它不仅在压缩性能上实现了显著提升,还将解码器的计算复杂度降低了 2.8倍,让高效视频编解码的未来又多了一种可能。

  • 论文标题: Sliding Window Attention for Learned Video Compression
  • 作者: Alexander Kopte, André Kaup
  • 机构: 埃尔朗根-纽伦堡大学
  • 论文地址: https://arxiv.org/abs/2510.03926
  • 会议: Picture Coding Symposium (PCS) 2025

视频压缩的“补丁”之痛

聊到今天的主角SWA之前,我们得先看看它想解决什么问题。

近年来,Transformer在计算机视觉领域大放异彩,视频压缩也不例外。像视频压缩变换器(Video Compression Transformer, VCT)这样的模型,通常会把视频帧分割成一个个“补丁”(patch),然后对这些补丁进行处理。

这种方法虽然直观,但带来了几个棘手的问题:

  1. 感受野不规则:每个像素能“看到”的邻近信息范围(即感受野)变得不均匀,尤其是在补丁的边界处,信息获取不完整。
  2. 信息流受阻:补丁之间存在硬边界,阻碍了信息的流畅传递。想象一下,一个运动的物体从一个补丁移动到另一个,它的特征信息流就会被人为地切断。
  3. 计算冗余:为了缓解上述问题,像VCT这样的模型不得不采用重叠窗口(overlapping windows)来提取时间上的上下文信息,但这又导致了大量的重复计算,费时费力。

简单来说,现有的“打补丁”方法在架构上存在天然缺陷,影响了压缩效率和性能。

无需补丁的优雅:3D滑动窗口注意力(SWA)

为了根治“补丁”带来的顽疾,作者提出了 3D滑动窗口注意力(SWA)。这是一种无补丁(patchless)的局部注意力形式,它的核心思想非常优雅。

SWA将注意力机制类比于一个在时空维度上滑动的3D卷积核。对于当前需要处理的任何一个“超像素”(hyperpixel),注意力计算都发生在一个由它周围时空邻居组成的局部窗口内。

如上图所示,紫色的方块是当前正在处理的超像素,蓝色的方块是它过去的时空邻居,注意力就在这个蓝色区域内计算。这种设计带来了几个关键优势:

  • 统一的感受野:每个超像素的感受野都是均匀的,解决了补丁方法中边界像素的尴尬处境。
  • 统一的时空上下文处理:SWA构建了一个纯解码器(decoder-only)的自回归模型,将空间信息和时间信息放在一个统一的框架下处理,不再需要像VCT那样分离处理,信息交互更充分。
  • 告别冗余计算:由于不再需要重叠窗口,之前那些重复的计算被彻底消除,解码器变得更加高效。

为了保证解码过程的因果关系(即解码当前像素只能用已经解码过的信息),模型采用了逐行扫描的顺序。如下图所示,在解码每一行(绿色箭头)的开头,它会把正上方一行(红色)的对应信息作为引子,确保局部注意力窗口总能获取到最相关的空间上下文。

实验效果:更快、更准

作者将他们提出的SWA模型与VCT基线以及其他主流方法(如DCVC-DC、HM、VTM)进行了全面对比。

率失真性能显著提升

在视频压缩里,我们最关心的就是率失真(Rate-Distortion, RD)性能,即在相同的码率(文件大小)下,谁的画质更好。

上图的RD曲线展示了在UVG数据集上的结果,可以看到SWA(红色虚线)在I帧、P帧和整个GOP(图像组)上都稳定优于VCT基线(蓝色虚线)。

量化来看,BD-rate是衡量压缩性能提升的黄金标准,负值越大代表性能提升越明显。

从表格中可以看到,相较于VCT,SWA在所有测试数据集上都取得了可观的BD-rate节省,最高达到了 18.6%!这是一个非常扎实的性能提升。

解码复杂度大幅降低

性能提升的同时,SWA的效率优势也同样惊人。

根据上表的理论计算复杂度分析,SWA模型的总解码器复杂度(kMACs/px)相比VCT降低了约 2.8倍(从2320.64降至838.80)。其中,核心的熵模型(Entropy Model)效率提升了近 3.5倍。这完全得益于其无补丁和无重叠窗口的简洁设计。

上下文长度并非越长越好

研究团队还做了一个有趣的消融实验:到底需要多长的历史信息(参考帧)才能达到最佳性能?

结果发现,参考帧并非越多越好。如上图所示,性能会随着参考帧数量的增加先提升后下降。对于不同帧率的数据集,最佳的上下文长度也不同(HEVC B为13帧,UVG为15帧)。这说明,虽然模型能从长程上下文中受益,但过多的、不相关的信息反而会成为“噪音”,干扰模型的预测。

xxx认为,这一发现对于未来设计更智能的上下文管理机制具有重要的启发意义。

总结与展望

总的来说,这篇论文提出的3D-SWA方法,通过一个优雅的“无补丁”滑动窗口设计,成功解决了当前主流Transformer视频压缩模型中的架构缺陷。它不仅在压缩性能上取得了高达18.6%的BD-rate提升,还大幅降低了解码复杂度,为开发下一代高效视频编解码器提供了一个极具潜力的方向。

当然,作者也坦言,当前模型为了公平比较,设计得相对简单,与最顶尖的编解码器(如DCVC-DC)在P帧上仍有差距。但他们指出,SWA统一的时空上下文处理框架为未来集成更复杂的机制(如超先验)铺平了道路。

...

#xxx

...

#xxx

...

#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
http://www.dtcms.com/a/461514.html

相关文章:

  • 生鲜买菜商城APP:便捷生活,触手可及的新鲜体验
  • 网站seo去哪个网站找好做化妆品的网站有哪些
  • Java求职面试:从Spring Boot到Kafka的技术探讨
  • ChatGPT Agent深度总结:从“对话工具”到“超级助理”的AI革命
  • shell编程实战
  • 拟定网站建设合同的工作过程记录拍摄微电影公司
  • 厦门 公司网站建设绵阳做网站的公司
  • 【android 驱动开发十一】pinctrl 子系统
  • 【android驱动开发十二】内核子系统大概-进阶
  • vue前端面试题——记录一次面试当中遇到的题(2)
  • 【pyTorch】关于PyTorch的高级索引机制理解
  • c++ bug 函数定义和声明不一致导致出bug
  • 网站建设需求分析文档手机上制作ppt的软件
  • 推广网站怎么做能增加咨询南宁企业官网seo
  • MATLAB的无线传感器网络(WSN)算法仿真
  • k8s opa集成
  • Nginx 负载均衡通用方案
  • 我的世界怎么做神器官方网站dw网站设计与制作
  • ubuntu22.04发布QT程序步骤
  • Spring Boot:分布式事务高阶玩法
  • 做网站开什么端口网址格式
  • 白云区建设局网站建筑工程网教
  • react native android设置邮箱,进行邮件发送
  • Java面试场景:从Spring Boot到Kubernetes的技术问答
  • 从潜在空间到实际应用:Embedding模型架构与训练范式的综合解析
  • Vue3 provide/inject 详细组件关系说明
  • php的网站架构建设框架嘉兴网站设计
  • Redis(四)——Redis主从同步与对象模型
  • 2016年网站建设总结培训学校
  • 网站最下端怎么做动画设计培训机构