当前位置: 首页 > news >正文

从单口相声到群口辩论:MultiTalk开源:多角色对话生成SOTA模型,语音-视觉对齐精度达98.7%!

由中山大学、美团、港科大开源的MultiTalk可实现多虚拟人对话视频生成。在语音与嘴形同步方面达到了SOTA性能,并支持通过prompt实现人物、物体与场景的交互。

相关链接

  • 主页:https://meigen-ai.github.io/multi-talk/

  • 代码:https://github.com/MeiGen-AI/MultiTalk

  • 论文:https://arxiv.org/abs/2505.22647

论文介绍

近年来,音频驱动的人体动画技术飞速发展,从逼真的说话头部(Talking Head)到全身动作同步(Talking Body),已能生成高自然度的单人物视频。然而,现有技术大多局限于单人场景,面对多人对话视频生成时面临三大挑战:

  1. 多音频流输入适配:如何区分并绑定不同人物的音频信号?

  2. 动态人物定位:当人物在画面中移动时,如何精准定位其运动区域?

  3. 指令遵循能力:如何让生成的视频严格遵循文本描述的复杂动作(如大幅肢体动作)?

方法概述

MultiTalk以DiT(Diffusion-in-Transformer)为基础的视频扩散模型作为其核心骨架。基础的图像到视频(I2V)扩散模型通常不原生支持音频输入。为了让模型能够“说话”,MultiTalk在每个DiT块的文本交叉注意力层之后,添加了新的层,这些层包含层归一化和音频交叉注意力机制,专门用于处理和整合音频条件。

传统方法直接融合多音频流会导致人物与音频错配。MultiTalk提出​​Label Rotary Position Embedding(L-RoPE)​​,通过以下步骤实现精准绑定:

  • 步骤1:自适应人物定位​​利用参考图像的自注意力图(Self-Attention Map),计算人物区域与背景的相似度矩阵,动态分割视频潜在特征(Video Latents)为不同人物区域。

  • 步骤2:标签分配与旋转编码​​为每个说话人分配独立的数值范围标签(如Person1:0-4,Person2:20-24),并通过旋转位置编码(RoPE)将标签映射到音频交叉注意力层。相同标签的音频与视频区域会被激活,从而绑定音频与人物的唇部动作。

实验结果

结论

MultiTalk提出一种音频驱动多人物对话视频生成方案,其核心突破在于其创新的L-ROPE方法,它通过结合自适应人物定位和带有类别信息的标签编码,有效解决了多流音频的注入和人物绑定这一难题。此外,其精心设计的部分参数训练和多任务训练策略,确保了模型在有限资源下依然能够保持强大的指令遵循能力和高质量的视觉输出。MultiTalk首次将语音驱动的动画从单人推向多人场景,为虚拟主播、影视制作等领域提供了强有力工具。

相关文章:

  • Linux 下的 socket
  • [project-based-learning] 开源贡献指南 | 自动化链接验证 | Issue模板规范
  • 【机器学习】数学基础——张量(进阶篇)
  • JVM——Synchronized:同步锁的原理及应用
  • 顶顶通大模型电话机器人实现原理
  • [论文阅读] 软件工程 + 教学 | 软件工程项目管理课程改革:从传统教学到以学生为中心的混合式学习实践
  • ELMo 说明解析及用法
  • 高线性低噪放:精密ADC信号链的守护者
  • C4.5算法深度解析:决策树进化的里程碑
  • 打造智能未来:如何使用 .NET 9、Blazor 与 Semantic Kernel 创建属于你的 AI 知识库
  • Ubuntu22.04.4 开启root帐号SSH登陆
  • [GESP202312 五级] 烹饪问题
  • 可理解性输入:洗澡习惯
  • Redis核心数据结构实战
  • rust单体web项目模板搭建
  • 管理综合知识点
  • Kafka动态配置深度解析
  • CSS Background 相关属性详解 文字镂空效果
  • 【HarmonyOS Next之旅】DevEco Studio使用指南(三十六) -> 配置构建(三)
  • 【FPGA学习】 分秒计数器(暂停、按键消抖)
  • 网站怎么做搜索引擎才能收录/江苏seo推广
  • 龙华网站建设销售员/网络推广费用
  • 济阳做网站哪家好/杭州优化公司在线留言
  • 想做一个自己设计公司的网站怎么做的/互联网
  • 做课件的软件下载带有蓝色的网站/环球网广东疫情最新消息
  • 中国房地产排名100强/太原百度seo排名软件