当前位置：首页 > news >正文

Kimi：统一架构的音频LLM

news 2025/7/2 8:31:14

在这里插入图片描述

📖标题：Kimi-Audio: A Universal Audio Foundation Model for Audio Understanding, Generation, and Conversation
🌐来源：arXiv, 2504.18425

🌟摘要

🔸我们提出了 Kimi-Audio，这是一种开源音频基础模型，擅长音频理解、生成和对话。我们详细介绍了构建 Kimi-Audio 的做法，包括模型架构、数据管理、训练配方、推理部署和评估。
🔸具体来说，我们利用 12.5Hz 音频标记器，设计了一种新的基于 LLM 的架构，将连续特征作为输入，将离散标记作为输出，并基于流匹配开发了一个块流去标记器。我们策划了一个预训练数据集，该数据集由超过 1300 万个音频数据组成，涵盖了广泛的模态，包括语音、声音和音乐，并构建管道来构建高质量和多样化的训练后数据。从预先训练的LLM初始化，Kimi-Audio通过几个精心设计的任务在音频和文本数据上连续预训练，然后进行微调以支持各种与音频相关的任务。
🔸广泛的评估表明，Kimi-Audio 在一系列音频基准上实现了最先进的性能，包括语音识别、音频理解、音频问答和语音对话。我们在 https://github.com/MoonshotAI/Kimi-Audio 中发布了代码、模型检查点以及评估工具包。

🛎️文章简介

🔸研究问题：如何构建一个统一的音频基础模型，同时处理音频理解、生成和对话等多种音频处理任务？
🔸主要贡献：Kimi-Audio作为一个开源的音频基础模型，实现了在多个音频处理任务上达到最先进的性能，并提供了可重复的评估工具包。

📝重点思路

🔸采用了混合音频标记策略，将离散语义标记与连续声学向量结合，以有效表示语音信号。
🔸构建了一个音频大语言模型（LLM），通过共享的变换器层处理多模态输入，并在文本和音频生成上分支为专用的并行头。
🔸使用流匹配方法的音频去标记器，将模型生成的离散语义标记转换为连贯的音频波形。
🔸开发了一个评估工具包，以公平评估音频LLM在各类下游任务中的表现，并开源该工具包以促进社区发展。

🔎分析总结

🔸Kimi-Audio在多个音频基准上展示了其强大的音频理解能力，尤其在语音识别和非语音声音分类任务中取得了优异成绩。
🔸在语音对话任务中，Kimi-Audio的性能超越了其他先进模型，显示出其在复杂对话场景中的应用潜力。
🔸通过大规模的音频数据预训练和监督微调，Kimi-Audio实现了出色的指令跟随能力，能够在多样化的任务中表现出色。