Kimi:统一架构的音频LLM
📖标题:Kimi-Audio: A Universal Audio Foundation Model for Audio Understanding, Generation, and Conversation
🌐来源:arXiv, 2504.18425
🌟摘要
🔸我们提出了 Kimi-Audio,这是一种开源音频基础模型,擅长音频理解、生成和对话。我们详细介绍了构建 Kimi-Audio 的做法,包括模型架构、数据管理、训练配方、推理部署和评估。
🔸具体来说,我们利用 12.5Hz 音频标记器,设计了一种新的基于 LLM 的架构,将连续特征作为输入,将离散标记作为输出,并基于流匹配开发了一个块流去标记器。我们策划了一个预训练数据集,该数据集由超过 1300 万个音频数据组成,涵盖了广泛的模态,包括语音、声音和音乐,并构建管道来构建高质量和多样化的训练后数据。从预先训练的LLM初始化,Kimi-Audio通过几个精心设计的任务在音频和文本数据上连续预训练,然后进行微调以支持各种与音频相关的任务。
🔸广泛的评估表明,Kimi-Audio 在一系列音频基准上实现了最先进的性能,包括语音识别、音频理解、音频问答和语音对话。我们在 https://github.com/MoonshotAI/Kimi-Audio 中发布了代码、模型检查点以及评估工具包。
🛎️文章简介
🔸研究问题:如何构建一个统一的音频基础模型,同时处理音频理解、生成和对话等多种音频处理任务?
🔸主要贡献:Kimi-Audio作为一个开源的音频基础模型,实现了在多个音频处理任务上达到最先进的性能,并提供了可重复的评估工具包。
📝重点思路
🔸采用了混合音频标记策略,将离散语义标记与连续声学向量结合,以有效表示语音信号。
🔸构建了一个音频大语言模型(LLM),通过共享的变换器层处理多模态输入,并在文本和音频生成上分支为专用的并行头。
🔸使用流匹配方法的音频去标记器,将模型生成的离散语义标记转换为连贯的音频波形。
🔸开发了一个评估工具包,以公平评估音频LLM在各类下游任务中的表现,并开源该工具包以促进社区发展。
🔎分析总结
🔸Kimi-Audio在多个音频基准上展示了其强大的音频理解能力,尤其在语音识别和非语音声音分类任务中取得了优异成绩。
🔸在语音对话任务中,Kimi-Audio的性能超越了其他先进模型,显示出其在复杂对话场景中的应用潜力。
🔸通过大规模的音频数据预训练和监督微调,Kimi-Audio实现了出色的指令跟随能力,能够在多样化的任务中表现出色。
💡个人观点
Kimi-Audio采用了统一的架构和大规模的多模态预训练,从而实现了音频理解、生成和对话的无缝整合。
🧩附录