当前位置: 首页 > news >正文

腾讯混元开源视频拟音模型,破解 AI 视频 “无声” 难题

想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987

视频号(直播分享):sphuYAMr0pGTk27  抖音号:44185842659

人工智能培训讲师叶梓分享前沿技术:腾讯混元开源视频拟音模型

当前的视频生成模型能够合成高质量的视觉内容,但缺乏同步音频,这极大地限制了用户体验的沉浸感。传统Foley艺术需要专业人士逐帧创建,耗时且成本高昂,无法与现代视频生成系统的效率相匹配。现有的自动化Foley生成方法,如基于文本的音频合成(TTA)和视频到音频(V2A)的生成方法,均存在多模态数据稀缺、模态不平衡和音频质量有限等问题。

图2概述了HunyuanVideo-Foley模型的架构,展示了如何通过多模态Transformer块和单模态Transformer块的结合,以及如何利用同步特征和时间步嵌入进行调制。

HunyuanVideo-Foley框架包含以下三大核心创新:

  1. 可扩展的数据管道:通过自动化标注构建了约10万小时的多模态数据集,解决了多模态数据稀缺的问题。

  2. 表示对齐策略:使用自监督音频特征指导潜在扩散训练,有效提升了音频质量和生成稳定性。

  3. 新型多模态扩散Transformer:包含用于音频-视频融合的双流结构和通过交叉注意力注入文本语义的结构,解决了模态竞争问题。

图1展示了数据管道的工作流程,从原始视频数据库到过滤后的视频-音频数据库的处理步骤。

论文还提出了表示对齐(REPA)损失函数,通过将单流音频扩散Transformer块的隐藏嵌入与预训练的自监督模型提取的音频特征对齐,从而增强音频生成质量和稳定性。同时,采用基于DAC的增强型自编码器,将离散令牌替换为连续的128维表示,显著提高了音频重建能力。

通过综合评估表明,HunyuanVideo-Foley在音频保真度、视觉-语义对齐、时间对齐和分布匹配等方面均达到了新的最优性能。例如,在Kling-Audio-Eval数据集的客观评估中(表1),HunyuanVideo-Foley在分布匹配(FDPaNNs、KL)、音频质量(PQ)、视觉-语义对齐(IB)和时间对齐(DeSync)等多个指标上均优于基线模型。

  • 体验入口:https://hunyuan.tencent.com/video/zh?tabIndex=0
  • 项目官网:https://szczesnys.github.io/hunyuanvideo-foley/
  • 代码:https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
  • 技术报告:https://arxiv.org/abs/2508.16930
  • Hugging Face:https://huggingface.co/tencent/HunyuanVideo-Foley
http://www.dtcms.com/a/354755.html

相关文章:

  • vscode 远程ssh登录免手动输入密码
  • 20.22 QLoRA微调实战:中文语音识别数据准备全流程解密
  • 音合成之二十四 微软VibeVoice语音合成模型
  • 2025通用证书研究:方法论、岗位映射与四证对比
  • 【Bluedroid】A2DP Source设备音频数据读取机制分析(btif_a2dp_source_read_callback)
  • Unity 打包 iOS,Xcode 构建并上传 App Store
  • Java 大视界 -- 基于 Java 的大数据实时流处理在智能电网分布式电源接入与电力系统稳定性维护中的应用(404)
  • mac中进行适用于IOS的静态库构建
  • 【大前端】React Native 调用 Android、iOS 原生能力封装
  • 基于FPGA的情绪感知系统设计方案:心理健康监测应用(五)
  • Ckman部署clickhouse
  • Qt基础_xiaozuo
  • Groovy集合常用简洁语法
  • linux mysql 数据库启动异常问题记录
  • KafKa学习笔记
  • AT_abc407_e [ABC407E] Most Valuable Parentheses
  • 前端开发中的CSS变量管理:实现缓存与响应式更新
  • 从 WPF 到 Avalonia 的迁移系列实战篇3:ResourceDictionary资源与样式的差异与迁移技巧
  • CuTe C++ 简介01,从示例开始
  • wpf之ListBox
  • 一个客户端直接掉线或断点,服务器怎么快速识别
  • 通过代码认识 CNN:用 PyTorch 实现卷积神经网络识别手写数字
  • audioMAE模型代码分析
  • 循环神经网络——pytorch实现循环神经网络(RNN、GRU、LSTM)
  • 深度学习——卷积神经网络(PyTorch 实现 MNIST 手写数字识别案例)
  • SpringBoot项目使用Liquibase 数据库版本管理
  • Day16_【机器学习—KNN算法】
  • IDA Pro 逆向分析快捷键大全及核心用法详解
  • 【Day 35】Linux-Mysql错误总结
  • 微信小程序对接EdgeX Foundry详细指南