小米最新ASR音频大模型MiDashengLM
引言:ASR范式改变
大型音频语言模型 (Large Audio-Language Models, LALMs) 正在彻底改变我们与机器进行听觉交互的方式。然而,当前主流的 LALM 在构建时,往往过度依赖于一个核心范式——基于自动语音识别 (ASR) 的音频-文本对齐。
这种以 ASR 为中心的策略,虽然在处理语音转文本任务上卓有成效,但也带来了几个难以忽视的“先天缺陷”:
- 信息丢失与数据浪费:ASR 只关注语音中的文本内容,而忽略了同样重要的非语言信息(如说话人情感、年龄、性别)、背景音(如掌声、风声)和音乐。这导致大量宝贵的音频信息在训练中被丢弃,造成了巨大的数据浪费。
- 学习目标过于简单:ASR 的对齐任务(将声学单元映射到文本单元)在时间上是单调的,对于强大的 LLM 来说,学习目标相对简单 (Trivial)。这限制了模型在预训练阶段从音频中学习更深层次、更复杂知识的能力(如图 1 所示,ASR 任务的训练损失下降得很快,表明模型很快就“学会”了,但学到的可能不多)。
- 依赖闭源数据和模型:许多先进的 LALM