当前位置: 首页 > news >正文

Audio Flamingo

文章目录

  • [Audio Flamingo 3](https://research.nvidia.com/labs/adlr/AF3/) [2025.6]
    • abstract
    • method
      • AF-Whisper
      • LLM
      • streaming tts deocder
    • data
    • experiment
    • result

Audio Flamingo 3 [2025.6]

在这里插入图片描述

abstract

  • 可以处理speech/audio/music,多种音频形态的speech2speech

method

AF-Whisper

  • whisper encoder : whisper Large V3
  • 音频数据按照speech/sound/music三个维度打标签,其中sound/music的标签,主要通过AF2 encoder 进行打标;然后通过gpt 组成成一句描述性话语;作为whisper-decoder AR 预测的目标
  • decoder : 24 layers, 8 attention heads, and 1024 hidden size.
  • 其他方法是把speech/sound/music 当作不同的模态,使用不同的encoder,论文最后有对比,统一的编码器效果更好;

LLM

使用Qwen-2.5-7B

streaming tts deocder

  • DAC rvq 72 级码本,码本数增加可以提升音频质量,但是会增加预测长度;<
http://www.dtcms.com/a/323822.html

相关文章:

  • 网站升级https地址方法
  • LeetCode每日一题,2025-8-10
  • jmeter常规压测【读取csv文件】
  • BGP HCIP
  • 繁花深处:花店建设的时代意义与多元应用—仙盟创梦IDE
  • 农经权二轮延包—已有软件与后续研究
  • 线性代数1000题学习笔记
  • 从街亭失守看管理
  • Datawhale AI 夏令营——全球AI攻防挑战赛(AIGC技术-图像方向)
  • LLaMA-Adapter V2 Parameter-Efficient Visual Instruction Model
  • 快速了解DBSCAN算法
  • 分布微服务电商订单系统Rust编码开发[下]
  • 数据结构:树
  • 分布微服务电商订单系统Rust编码开发[上]
  • 代码随想录算法训练营第六十天|图论part10
  • sqllabs——Less1
  • 【每天一个知识点】深度领域对抗神经网络
  • 医防融合中心-智慧化慢病全程管理医疗AI系统开发(下)
  • 零基础学Java第二讲---数据类型与变量
  • 什么是ABA问题?
  • Day 10: Transformer完整架构详解 - 从位置编码到编解码器的全面剖析
  • 【QT】常⽤控件详解(七)容器类控件 GroupBox TabWidget 布局管理器 Spacer
  • 大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
  • 复杂项目即时通讯从android 5升级android x后遗症之解决 ANR: Input dispatching timed out 问题 -优雅草卓伊凡
  • 【东枫科技】 FR2 Massive MIMO 原型验证与开发平台,8*8通道
  • Linux 系统中,如何处理信号以避免竞态条件并确保程序稳定性?
  • 【实证分析】上市公司技术创新持续性数据分析-含代码(2008-2023年)
  • 【嵌入式】嵌入式硬件相关基础知识
  • 计算机网络:广播地址就是默认子网中最大的IP地址吗?
  • 计算机视觉全景指南:从OpenCV预处理到YOLOv8实战,解锁多模态AI时代(第五章)