当前位置：首页 > news >正文

Audio Flamingo

news 2025/10/1 17:39:07

文章目录

[Audio Flamingo 3](https://research.nvidia.com/labs/adlr/AF3/) [2025.6]
- abstract
- method
- - AF-Whisper
  - LLM
  - streaming tts deocder
- data
- experiment
- result

Audio Flamingo 3 [2025.6]

abstract

可以处理speech/audio/music，多种音频形态的speech2speech

method

AF-Whisper

whisper encoder : whisper Large V3
音频数据按照speech/sound/music三个维度打标签，其中sound/music的标签，主要通过AF2 encoder 进行打标；然后通过gpt 组成成一句描述性话语；作为whisper-decoder AR 预测的目标
decoder ： 24 layers, 8 attention heads, and 1024 hidden size.
其他方法是把speech/sound/music 当作不同的模态，使用不同的encoder，论文最后有对比，统一的编码器效果更好；

LLM

使用Qwen-2.5-7B

streaming tts deocder

DAC rvq 72 级码本，码本数增加可以提升音频质量，但是会增加预测长度；<

http://www.dtcms.com/a/323822.html

相关文章：

网站升级https地址方法

LeetCode每日一题，2025-8-10

jmeter常规压测【读取csv文件】

BGP HCIP

繁花深处：花店建设的时代意义与多元应用—仙盟创梦IDE

农经权二轮延包—已有软件与后续研究

线性代数1000题学习笔记

从街亭失守看管理

Datawhale AI 夏令营——全球AI攻防挑战赛（AIGC技术-图像方向）

LLaMA-Adapter V2 Parameter-Efficient Visual Instruction Model

快速了解DBSCAN算法

分布微服务电商订单系统Rust编码开发[下]

数据结构：树

分布微服务电商订单系统Rust编码开发[上]

代码随想录算法训练营第六十天|图论part10

sqllabs——Less1

【每天一个知识点】深度领域对抗神经网络

医防融合中心-智慧化慢病全程管理医疗AI系统开发(下)

零基础学Java第二讲---数据类型与变量

什么是ABA问题？

Day 10: Transformer完整架构详解 - 从位置编码到编解码器的全面剖析

【QT】常⽤控件详解(七）容器类控件 GroupBox TabWidget 布局管理器 Spacer

大型动作模型LAM：让企业重复任务实现80%效率提升的AI技术架构与实现方案

复杂项目即时通讯从android 5升级android x后遗症之解决 ANR: Input dispatching timed out 问题 -优雅草卓伊凡

【东枫科技】 FR2 Massive MIMO 原型验证与开发平台，8*8通道

Linux 系统中，如何处理信号以避免竞态条件并确保程序稳定性？

【实证分析】上市公司技术创新持续性数据分析-含代码（2008-2023年）

【嵌入式】嵌入式硬件相关基础知识

计算机网络：广播地址就是默认子网中最大的IP地址吗？

计算机视觉全景指南：从OpenCV预处理到YOLOv8实战，解锁多模态AI时代（第五章）