当前位置: 首页 > news >正文

[2025CVPR:图象合成、生成方向]WF-VAE:通过小波驱动的能量流增强视频 VAE 的潜在视频扩散模型

论文概述

这篇论文提出了一种名为WF-VAE(Wavelet Flow VAE)​的新型视频变分自编码器(Video VAE),旨在解决潜在视频扩散模型(LVDM)中的关键瓶颈问题,包括高计算成本和潜在空间不连续性。WF-VAE利用小波变换(Wavelet Transform)来分解视频信号,并通过能量流路径优化信息编码,显著提升了效率和重建质量。同时,论文引入了Causal Cache机制,支持无损的分块推理(block-wise inference),解决了长视频处理中的闪烁和失真问题。实验表明,WF-VAE在PSNR、LPIPS等指标上优于现有方法,同时将吞吐量提高2倍、内存消耗降低4倍。


背景与动机

视频变分自编码器(Video VAE)是LVDM的核心组件,用于将视频压缩到低维潜在空间,以降低扩散模型的训练成本。然而,随着视频分辨率和时长增加,现有VAE面临两大挑战:

  • 计算瓶颈​:现有方法(如OD-VAE、Allegro)使用密集3D卷积架构,导致高内存消耗和低吞吐量。例如,处理512×512分辨率视频时,基线模型内存占用可高达55GB,而编码速度慢至0.37秒/帧。
  • 潜在空间不连续​:分块推理策略(如Open-Sora和CogVideoX所用)会导致视频重叠区域的失真和闪烁,破坏潜在空间完整性。例如,分块推理使PSNR下降高达6.4。

这些问题源于现有VAE未能有效利用视频的时空冗余信息。因此,论文提

http://www.dtcms.com/a/299234.html

相关文章:

  • SSRF_XXE_RCE_反序列化学习
  • 「iOS」——内存五大分区
  • C++核心编程学习--对象特性--对象模型和this指针
  • 旧设备HMI焕新陷阱:操作习惯继承与智能化升级的平衡点把控
  • ​机器学习从入门到实践:算法、特征工程与模型评估详解
  • pose调研
  • # JsSIP 从入门到实战:构建你的第一个 Web 电话
  • Vue》》@ 用法
  • 期货资管软件定制开发流程
  • Matlab学习笔记:自定义函数
  • Vue 3 与 Element Plus 中的 /deep/ 选择器问题
  • 如果在分支A上修改了内容,想要提交更新内容的话,如何与develop上的主分支的最新的代码拉齐
  • linux线程概念和控制
  • Node.js特训专栏-实战进阶:19.dotenv环境变量管理
  • 零基础学习性能测试第三章:jmeter构建性能业务场景
  • [C/C++内存安全]_[中级]_[再次探讨避免悬垂指针的方法和检测空指针的方法]
  • 《从零开始学 JSSIP:JavaScript 实时通信开发实战》
  • QT核心————信号槽
  • Qt 多线程编程最佳实践
  • 《使用Qt Quick从零构建AI螺丝瑕疵检测系统》——6. 传统算法实战:用OpenCV测量螺丝尺寸
  • 基于粒子群算法优化高斯过程回归(PSO-GPR)的多输出回归
  • 数据科学与大数据技术专业的核心课程体系及发展路径全解析
  • Jenkins运行pytest时指令失效的原因以及解决办法
  • Java集合体系详解
  • docker常用命令集(3)
  • 【守护】同为科技SPD:AP-20D/4P产品解析
  • C语言--青蛙跳台阶问题
  • 《聪明人的个人成长》读书笔记
  • DAY31 整数矩阵及其运算
  • FitCoach AI:基于React+CloudBase的智能健身教练应用开发全解析