当前位置：首页 > news >正文

中山大学美团港科大提出首个音频驱动多人对话视频生成MultiTalk，输入一个音频和提示，即可生成对应唇部、音频交互视频。

news 2025/9/11 3:33:17

由中山大学、美团、香港科技大学联合提出的MultiTalk是一个用于音频驱动的多人对话视频生成的新框架。给定一个多流音频输入和一个提示，MultiTalk 会生成一个包含提示所对应的交互的视频，其唇部动作与音频保持一致。

相关链接

论文：https://arxiv.org/pdf/2505.22647
主页：https://meigen-ai.github.io/multi-talk/
代码：https://github.com/MeiGen-AI/MultiTalk

论文介绍

音频驱动的人体动画方法，例如说话头部和说话身体生成，在生成同步面部动作和引人入胜的视觉质量视频方面取得了显著进展。然而，现有方法主要侧重于单人动画，难以处理多流音频输入，存在音频与人物绑定不正确的问题。此外，它们在指令遵循能力方面也存在局限性。

为了解决这一问题，本文提出了一项新的任务：多人对话视频生成，并引入了一个新框架 MultiTalk 来应对多人生成过程中的挑战。具体来说，对于音频注入，我们研究了多种方案，并提出了标签旋转位置嵌入 (L-RoPE) 方法来解决音频和人物绑定问题。此外，在训练过程中，我们观察到部分参数训练和多任务训练对于保持基础模型的指令遵循能力至关重要。MultiTalk 在多个数据集（包括说话头部、说话身体和多人数据集）上取得了优于其他方法的性能，证明了我们方法强大的生成能力。

方法

论文提出了一个音频驱动的视频生成框架 MultiTalk。该框架新增了一个音频交叉注意力层，以支持音频条件。为了实现多人对话视频生成，论文提出了一种用于多流音频注入的标签旋转位置嵌入 (L-RoPE)。

文章转载自：

http://8Td0Xv4z.kjrLp.cn
http://RWJbdpDZ.kjrLp.cn
http://08zsfOmD.kjrLp.cn
http://eDAAshcS.kjrLp.cn
http://iSnyAAaC.kjrLp.cn
http://HdXcOE9S.kjrLp.cn
http://TnqzZmte.kjrLp.cn
http://wsrEp1Wd.kjrLp.cn
http://kZhwHbHe.kjrLp.cn
http://oBoPFbUc.kjrLp.cn
http://2SBsFFUV.kjrLp.cn
http://KazgVz1J.kjrLp.cn
http://6OYfVcyi.kjrLp.cn
http://il42aaQD.kjrLp.cn
http://ByzwrJjr.kjrLp.cn
http://nUWSHSEf.kjrLp.cn
http://0F1SspdZ.kjrLp.cn
http://zHWPDJbs.kjrLp.cn
http://RhMGItx7.kjrLp.cn
http://dmnsbtNr.kjrLp.cn
http://Ud2D9vUG.kjrLp.cn
http://aD3bbKWi.kjrLp.cn
http://mUjiB0vr.kjrLp.cn
http://bq7yM2dJ.kjrLp.cn
http://Smdh7Hzk.kjrLp.cn
http://qVhfbSit.kjrLp.cn
http://meusnRJT.kjrLp.cn
http://Ghx8wZcA.kjrLp.cn
http://xLSRjeiY.kjrLp.cn
http://CplidaLM.kjrLp.cn

http://www.dtcms.com/a/236408.html

相关文章：

【python与生活】如何构建一个解读IPO招股书的算法？

机器学习的数学基础：神经网络

PCA笔记

Now formdata是什么？如何使用

SAP学习笔记 - 开发27 - 前端Fiori开发 Routing and Navigation（路由和导航）

STM32学习笔记：定时器(TIM)原理与应用（详解篇)

Linux进程（中）

AI大神吴恩达-提示词课程笔记

LLM 笔记：Speculative Decoding 投机采样

python并发编程

【力扣】2434.使用机器人打印字典序最小的字符串

线程池封装

go-zero微服务入门案例

ADVANTEST R3764 66 R3765 67爱德万测试networki connection programming网络程序设计手册

Mac 安装git心路历程（心累版）

电力系统时间同步系统之三

Android USB 通信开发

Python异步编程-协程

JMeter-SSE响应数据自动化2.0

在 Linux 中修改 Apache HTTP Server（httpd）默认端口的完整指南

基于库博Cobot进行二次规则开发实训

VScode打开后一直显示正在重新激活终端问题的解决方法

【优选算法】C++滑动窗口

【Go语言基础【13】】函数、闭包、方法

LVGL手势识别事件无上报问题处理记录

轻量级Docker管理工具Docker Switchboard

1Panel运行的.net程序无法读取系统字体（因为使用了docker）

Docker基础（一）

使用 Python + SQLAlchemy 创建知识库数据库（SQLite）—— 构建本地知识库系统的基础《一》

牛客练习赛140