当前位置：首页 > news >正文

硬核突破！基于 ComfyUI + pyannote 实现 infiniteTalk 多轮对话数字人：从语音端点检测到上下文感知的闭环

news 2025/9/20 18:53:19

在AIGC浪潮中，让虚拟形象开口说话已非难事。然而，当追求自然、流畅、可中断、能延续的多轮对话时，现有方案往往暴露其根本缺陷：

infiniteTalk 的设计目标，就是直面这些痛点，构建一个工程化、可复现的多轮对话解决方案。

下面看一下效果：

infiniteTalk 多轮对话数字人来了！整合包已备好，index-TTS2 + pyannote 真正实现了数字人的多轮对话,适合说相声

infiniteTalk 的工作流并非简单节点堆砌，而是一个精心设计的反馈控制系统。其核心创新点如下：

这是 infiniteTalk 的心脏。我们摒弃了传统的启发式VAD方法，转而采用 pyannote.audio 的说话人分离模型（如 pyannote/speaker-diarization-3.1）进行音频流分析。

原理： pyannote 模型不仅能区分不同说话人，更能输出每一时刻的说话人活跃概率序列。通过设定合理的阈值和后处理（如最小片段长度、最大间隙合并），我们可以极其精确地定位用户语音的起始（Onset）和终止（Offset）时间点。

多轮对话的灵魂在于记忆。infiniteTalk 通过以下方式实现：

结构化对话历史：在ComfyUI中，我们利用 JSON 或字符串拼接 的方式，将每一轮的 [用户: 输入文本] 和 [AI: 回复文本] 有序存储。
动态上下文注入：当 pyannote 触发新对话轮次时，当前存储的完整对话历史被作为 System Prompt 或 Context Input 注入大语言模型（LLM）节点（如 ChatGLM, Qwen, Llama 等）。
结果： LLM 基于完整的上下文生成回复，确保了回答的相关性和连贯性，避免了“金鱼记忆”式的单轮问答。

对话内容需要“声”动呈现。infiniteTalk 集成 index-TTS2 ，因其具备：

TTS节点接收LLM生成的文本，输出高质量音频，驱动后续的数字人面部动画（如SadTalker, Wav2Lip）。

理论再好，不如眼见为实。我已将 infiniteTalk 的实际运行效果和技术原理拆解制作成深度视频。

【B站技术深挖视频】：
https://www.bilibili.com/video/BV1v5W5zkEWq/?vd_source=8977926e52346834c9c6a6b1eaf76778
【工作流核心截图】：

为了让这项技术不再停留于概念，我提供了三种途径：

【开箱即用 · 本地部署】：我打包了包含所有必要依赖、预配置脚本和 .json 工作流文件的 完整整合包。省去你数小时甚至数天的环境配置烦恼。
- 👉 获取整合包：https://pan.quark.cn/s/fe6c8ae12869
【免安装 · 即时体验】：没有合适硬件？想快速验证效果？我部署了 在线云端Demo。无需任何本地资源，打开浏览器即可与 infiniteTalk 数字人进行真实多轮对话，亲自感受 pyannote VAD 的精准。
- 👉 一键体验云端Demo：https://www.xiangongyun.com/image/detail/995c211e-8d52-4a37-b844-8c47afe16175?r=KSGHSD