当前位置: 首页 > news >正文

腾讯开源实时语音大模型VITA-audio,92mstoken极速响应,支持多语言~

简介

在这里插入图片描述

VITA-Audio 是一个由腾讯优图实验室(Tencent Youtu Lab)、南京大学和厦门大学的研究人员共同开发的项目,旨在解决现有语音模型在流式生成(streaming)场景下生成第一个音频令牌(token)时的高延迟问题。这种延迟在实时应用中(如语音助手、实时语音翻译)是一个显著的瓶颈,限制了模型的部署和实际应用。

开发动机与目标

在这里插入图片描述

  • 问题驱动:随着自然人机交互需求的增长,语音作为日常交流的主要形式,其实时性变得越来越重要。然而,现有模型在流式生成时存在高延迟问题,特别是在生成第一个音频令牌时,延迟可能达到数秒,影响用户体验 。

  • 目标:VITA-Audio 旨在通过创新性地引入交叉模态令牌生成机制(Cross-Modal Token Generation),显著降低生成延迟,同时保持语音质量的优异表现。其核心目标是实现高效的音频-文本令牌生成,适合实时交互场景。

  • 创新点:项目提出了一种轻量级的多模态令牌预测模块(Multiple Cross-modal Token Prediction, MCTP),能够在单次模型前向传播中生成多个音频令牌,从而加速推理并减少首个音频令牌的生成延迟 。

  • 训练策略:采用四阶段渐进式训练策略(Four-Stage Progressive Training),确保模型在加速的同时保持高质量输出,训练基于大规模开源语音数据集,确保多语言和多风格的泛化能力 。

  • 应用场景:VITA-Audio 适用于需要低延迟的语音生成任务,如实时语音助手、语音翻译、语音合成等,特别适合资源受限的设备部署 。

  • 开源与社区:项目已开源,采用开放许可,GitHub 仓库提供推理代码、训练代码和模型权重,鼓励社区贡献和使用,截至 2025 年 5 月 14 日,已吸引开发者关注 。

模型结构

VITA-Audio 的模型结构设计紧凑且高效,专为实时语音生成优化。

整体架构

  • VITA-Audio 是一个端到端的大型语音模型(Large Speech-Language Model),支持音频和文本的交叉模态生成,核心目标是实现快速的音频-文本令牌生成 。

  • 模型基于变分推理和对抗学习(Variational Inference with Adversarial Learning),结合了语音合成和语言模型的优点,适合端到端的语音任务。

关键模块

在这里插入图片描述

  • Multiple Cross-modal Token Prediction (MCTP) 模块

    • 这是 VITA-Audio 的核心创新,允许模型在单次前向传播中生成多个音频令牌,从而显著减少生成第一个音频令牌的延迟 。
    • MCTP 模块通过交叉模态学习(Cross-Modal Learning)实现音频和文本之间的协同生成,确保生成的音频与文本提示保持一致,适合实时交互 。
    • 其轻量级设计降低了计算开销,适合资源受限的设备部署。
  • 语音编码器(Voice Encoder)

    • 从参考音频中提取语音特征(如音色、节奏、语调等),用于克隆目标语音 。

    • 可能使用基于卷积或变换器的编码器,捕获音频的时频特征,确保音质的高保真度。

  • 文本编码器(Text Encoder)

    • 处理输入文本,生成语音合成的条件,可能是基于 Transformer 架构,支持多语言输入 。

    • 确保文本和音频的语义一致性,适合跨语言生成任务。

  • 生成器(Generator)

    • 结合文本编码器和语音编码器的输出,生成目标语音,使用对抗学习确保生成语音的真实性,减少伪影 。

    • 生成器可能采用 U-Net 架构,结合条件生成网络(Conditional GAN)实现高保真语音输出。

  • 四阶段渐进式训练策略

    • 模型采用四阶段训练策略,逐步增加训练难度和数据复杂度,确保模型在加速的同时保持高质量输出 。

    • 可能包括预训练(Pre-training)、微调(Fine-tuning)、多模态对齐(Multimodal Alignment)和优化(Optimization)阶段。
      在这里插入图片描述

性能优化

  • 低延迟:通过 MCTP 模块,VITA-Audio 在流式生成场景下显著降低了生成第一个音频令牌的延迟,提升了实时性,适合语音助手等应用 。

  • 高效性:模型设计轻量级,适合在资源受限的设备上部署,同时保持高质量的语音输出,社区反馈显示在 RTX 4090 上生成速度比 RTX 3090 快 50%-70% 。

交互性

  • 非唤醒式交互(Non-awakening Interaction):用户无需通过唤醒词或按钮即可与模型进行语音交互,适合自然交互场景 。

  • 音频中断交互(Audio Interrupt Interaction):用户可以在模型生成过程中随时提出新问题,模型会根据新问题及时响应,适合实时对话 。

性能对比

在这里插入图片描述

在这里插入图片描述

看看效果

相关文献

github地址:https://github.com/VITA-MLLM/VITA-Audio#
技术报告:https://arxiv.org/pdf/2505.03739
模型下载:https://huggingface.co/collections/VITA-MLLM/vita-audio-680f036c174441e7cdf02575

相关文章:

  • 麒麟v10 部署 MySQL 5.6.10 完整步骤
  • javaSE.迭代器
  • AI Agent开发第67课-彻底消除RAG知识库幻觉-文档分块全技巧(1)
  • 密码学刷题小记录
  • QML学习01(设置宽度、高度、坐标点、标题,信号与槽,键盘事件)
  • 网页渲染的两条赛道
  • 【高斯拟合】不用库手写高斯拟合算法:从最小二乘到拟合参数推导
  • 牛客网NC22012:判断闰年问题详解
  • [c语言日寄]数据结构:栈
  • RAGFlow 中的 Rerank 和 Recall 解释
  • 大数据架构选型全景指南:核心架构对比与实战案例 解析
  • 吊舱热敏传感器抗干扰技术分析!
  • mysqlbinlog用法详解
  • AI数字人融合VR全景:从技术突破到可信场景落地
  • LeetCode 235. 二叉搜索树的最近公共祖先 LeetCode 701.二叉搜索树中的插入操作 LeetCode 450.删除二叉搜索树中的节点
  • Logistics | Days of Inventory vs. Stock Days 【待续】
  • 射击游戏demo11
  • 打破传统束缚:Captiks 无线惯性动捕与步态分析系统如何重新定义运动测量?
  • QMK键盘固件旋钮编码器(Encoder)配置详解(实操部分)
  • 气动排渣煤粉炉专用V型球阀——法兰连接耐磨阀门生产厂家解析-耀圣
  • 商务部回应稀土出口管制问题
  • 丹麦外交大臣拉斯穆森将访华
  • 最新研究:新型合成小分子可“精准杀伤”癌细胞
  • 大英博物馆展歌川广重:他是梵高最钟爱的浮世绘名家
  • 哲学新书联合书单|远离苏格拉底
  • 高适配算力、行业大模型与智能体平台重塑工业城市