当前位置：首页 > news >正文

Recent Advances in Speech Language Models: A Survey

news 2025/10/10 12:43:25

概要

大型语言模型近期备受关注，主要因其在基于文本的交互中展现的能力。然而，人类的自然交互往往依赖语音，这就需要向基于语音的模型转变。实现这一目标的一种直接方法是采用 “自动语音识别（ASR）+ 大型语言模型（LLM）+ 文本转语音（TTS）” 的流水线架构：输入语音先转录为文本，由 LLM 处理后再转换回语音。尽管该方法操作直观，却存在固有缺陷：模态转换中的信息丢失、复杂流水线导致的显著延迟，以及三个阶段间的错误累积。为解决这些问题，语音语言模型（SpeechLMs）—— 无需经文本转换即可端到端生成语音的模型 —— 已成为颇具潜力的替代方案。本综述首次全面概述了构建 SpeechLMs 的最新方法，详细解析其架构的关键组件及核心训练策略。此外，我们系统梳理了 SpeechLMs 的各类能力，对评估指标进行分类，并探讨了这一快速发展领域面临的挑战与未来研究方向。

一、引言

语音语言模型（SpeechLM）：是一种自回归基础模型，其通过端到端方式处理和生成语音，并利用上下文理解能力实现连贯的序列生成。这一能力使其能够通过基于语音的交互执行多种任务。（区别于传统模型内部处理的唯一模态是文本）

1. ASR + LLM + TTS 框架

用户的语音输入首先由 ASR 模块转换为文本。然后，LLM 基于该转录内容生成文本响应。最后，TTS 模块将文本响应转换回语音，并播放给用户。

然而，这种简单的解决方案主要存在以下三个问题：

1）信息丢失。语音信号不仅包含语义信息（即语音的含义），还包含副语言信息（如音高、音色、语调等）。将纯文本 LLM 置于中间环节会导致输入语音中的副语言信息完全丢失。

2）显著延迟。由于 ASR、LLM 和 TTS 模块的结构和流水线本身较为复杂，其顺序操作会导致显著延迟。

3）错误累积。这种分阶段的方法极易在整个流水线中导致错误累积，尤其是在 ASR-LLM 阶段

2.语音语言模型框架

SpeechLMs 直接将语音波形编码为标记或表示，捕获音频中的关键特征和信息。

优点：

1）SpeechLMs 能够捕捉说话人特定信息和情感细微差别，使其在对话中能区分不同说话人，并理解和生成带有特定情感基调的语音。

2）集成方法无需将三个独立模块串联，显著降低了延迟。

3）SpeechLMs 直接基于语音数据训练，它们有望促进稀有语言的交流，因为这些语言中口语内容比书面材料更为普遍。

二、语音语言模型框架组件

SpeechLM 包含三个主要组件：语音标记器、语言模型和标记到语音的合成器（声码器）。

具体而言：语音标记器首先将连续音频波形转换为标记或表示，作为语言模型的输入；然后语言模型基于输入的语音标记执行下一标记预测；最后，声码器将语言模型输出的标记转换回音频波形。

各类 SpeechLM 论文中这三个组件的常用选择

A. 语音标记器

目标：将连续音频信号（波形）编码为标记，从而捕获音频的关键特征，同时降低其维度，使音频输入能够被语言模型有效处理以进行自回归生成。

具体操作：语音标记器通过逐段编码音频来操作，生成两种可能的标记（特征）类型：离散标记和连续标记。其中，离散标记使用特定索引表示每个语音段，而连续标记使用嵌入表示每个语音段。这两种标记类型均可作为语言模型自回归建模的输入。在本节中，本文根据语音标记器对原始音频不同方面的建模重点对其进行分类。

1）语义理解目标

旨在实现语义理解的语音标记器，目标是将语音波形转换为能准确捕捉语音内容和意义的标记。这类标记器专注于从波形中提取语义特征，这对自动语音识别（ASR）等任务有促进作用。

一个具备语义理解功能的语音标记器通常由语音编码器和量化器组成。语音编码器将波形中的关键信息编码为连续嵌入向量。然后，通常会引入一个量化器，将连续嵌入向量转换为离散索引。设由 $\theta _{f_{E}}$ 参数化的语音编码器为 $f_{E}\left ( \cdot \right )$ ，则有 $v = f_{E}\left ( a;\theta _{f_{E}} \right )$ ，其中 $v = \left ( v_{1}, v_{2},...,v_{n}\right)$ 表示编码后的嵌入向量。由于 $v$ 仍是连续的，需使用量化器 $d\left ( \cdot \right )$ 对嵌入向量进行离散化处理。

根据不同的设计选择，语音标记 $s = \left ( s_{1},s_{2},...,s_{P} \right )$ 可以从 $a$ 或 $v$ 得到。对于离散标记，我们有 $s = d\left ( v;\theta _{d} \right )$ 或 $s = d\left ( a;\theta _{d} \right )$ ；对于连续标记， $s = v$ 。此后， $s$ 可作为目标标签用于训练语音标记器（比如对 $a_{mask}\subset a$ 进行掩码处理，并重建其对应的标签 $s_{mask}\subset s$ ），或者用于训练后续的语言模型。

关键的设计要点在于如何有效地将语音编码（和量化）为标记。Wav2vec 2.0 使用卷积编码器，后接乘积量化模块，对连续波形进行离散化。然后，对部分量化表示进行掩码处理，并使用对比损失进行建模。W2v - BERT基于 Wav2vec 2.0 构建，除对比损失外，还提出使用掩码语言模型（MLM）损失。

类似地，HuBERT 使用 $k$ - 均值算法将语音话语聚类为若干隐藏单元，然后执行掩码语言模型任务，从掩码语音话语中预测目标隐藏单元。为了更好地对齐文本和语音模态的表示，Google USM 在第二预训练阶段使用文本注入损失，以提升下游任务的性能和稳健性。WavLM 在预训练期间增加了语音去噪目标。虽然大多数语音标记器研究聚焦于自动语音识别（ASR）和文本转语音（TTS）等语义相关任务，但 WavLM 表明，语音去噪能提升说话人验证和语音分离等非语义任务的性能。

2）声学生成目标

具有声学生成目标的语音标记器专注于捕捉生成高质量语音波形所需的声学特征。这类标记器优先保留基本声学特性，而非语义内容，因此适用于语音（再）合成任务。

为生成高质量语音波形，声学生成语音标记器采用语音合成或语音重建目标。为此，其架构通常包括编码器、量化器和解码器。与之前一样，编码器 $f_{E}\left ( \cdot \right )$ 和量化器 $d\left ( \cdot \right )$ 将原始波形转换为标记。之后，解码器 $f_{D}\left ( \cdot \right )$ 将这些标记重建回语音波形。此过程表示为 $\hat{a} = f_{D}\left ( s;\theta _{f_{E}} \right )$ ，其中 $\hat{a}$ 是生成或重建的波形。

神经音频编解码器非常适合并主要用作声学生成语音标记器。这些编解码器利用深度神经网络的先进建模能力，将音频波形压缩为紧凑表示，通常为离散标记形式。使用编码器 - 量化器 - 解码器架构，编码器将音频压缩为潜在表示，量化器（通常通过矢量量化（VQ）或残差矢量量化（RVQ））对这些表示进行离散化，解码器将离散标记重建回音频波形。因此，编码器和量化器用作声学语音标记器。

3）混合目标

具有混合目标的语音标记器旨在平衡语义理解和声学生成。目标是利用这两种类型标记器的优势。目前，这类标记器的发展尚处于早期阶段。现有的大多数混合语音标记器主要采用声学生成语音标记器的架构，并专注于将语义标记器中的信息提炼到声学标记器中。SpeechTokenizer利用 RVQ - GAN架构，将语义信息从 HuBERT提炼到 RVQ 的第一层。受 SpeechTokenizer 启发，Mimi 采用单个 VQ 从 WavLM 中提取信息，并融入另一个 RVQ 模块来学习声学信息。

B. 语言模型

由于文本语言模型的成功，大多数语音语言模型（SpeechLMs）沿用了其架构。它们主要采用 Transformer或仅解码器架构（如 OPT 、LLaMA ）以自回归方式生成语音。形式化定义如下：给定词汇表大小 $| V{_{t}} |$ 和隐藏层维度 $h$ ，典型的基于文本的仅解码器 Transformer 语言模型包含嵌入矩阵 $E_{t} \in \mathbb{R}^{|V_{t}|\times h}$ 、 $L$ 个 Transformer 解码器块序列 $D_{e} = {D_{e_{1}},D_{e_{2}},...,D_{e_{L}}}$ ，以及输出嵌入矩阵 ${E_{t}}' \in \mathbb{R}^{h\times |V_{t}|}$ 。因此，语言模型（LM）可表示为：

为适配语音生成，需将原始文本标记器替换为上一部分所述的语音标记器。使用离散标记时， $E_{t} \in \mathbb{R}^{|V_{t}|\times h}$ 将转换为语音嵌入矩阵 $E_{s} \in \mathbb{R}^{|V_{s}|\times h}$ ，其中 $|V_{s}|$ 为语音标记器的词汇表大小。输出嵌入矩阵也从 ${E_{t}}' \in \mathbb{R}^{h\times |V_{t}|}$ 改为 ${E_{s}}' \in \mathbb{R}^{h\times |V_{s}|}$ 。因此，SpeechLM 中的语言模型可表示为：

由于 SpeechLMs 的语言模型架构借鉴自 TextLMs，其天然支持文本和语音模态的联合建模。最常用的简单方法是扩展原始TextLM 的词汇表，使其同时包含文本和语音标记。具体而言，语音嵌入矩阵通常附加到文本嵌入矩阵末尾，形成更大的嵌入矩阵 $E_{m} \in \mathbb{R}^{(|V_{t}| + |V_{s}|)\times h}$ 。设 $m$ 为包含语音和文本标记的序列，则语言模型可表示为

通过这种方式，模型可在单一序列中生成文本和语音，支持更丰富的应用场景。相比之下，使用连续标记时，语音标记器生成的嵌入可直接输入语言模型，此时语言模型架构无需修改。

C. 标记到语音合成器（声码器）

语言模型以自回归方式生成标记后，需通过标记到语音模块（通常称为声码器）将所有语音标记合成为语音波形。该过程将生成的语音标记所包含的语言和副语言信息转换为可听的音频波形，可视为语音标记器的逆过程，形式化表示为：

其中 $V_{O}$ 为声码器模型， $\theta _{V_{O}}$ 为其参数。

SpeechLM 声码器的流程因底层模型而异，主要分为两种模式：直接合成和输入增强合成。

直接合成：声码器直接将语言模型生成的语音标记转换为音频波形。例如，Polyak 等人改编 HiFi-GAN架构，直接以语音标记为输入。
输入增强合成：在声码器处理前，通过额外模块将标记转换为连续潜在表示。该流程的主要原因是声码器通常需要梅尔频谱等中间音频表示作为输入。例如，CosyVoice 使用条件流匹配（CFM）模型将语音标记转换为梅尔频谱，再通过 HiFi-GAN 合成最终波形。

对比两种流程，直接合成通常比输入增强合成更简单、高效。

然而，流水线的选择取决于作为输入的标记类型。来自声学生成标记器的标记包含足够的声学信息，使其适合直接合成。相反，来自语义理解标记器的标记提供了丰富的语义信息，但缺乏精细的声学细节，尤其是在高频部分。因此，在合成最终语音之前，这些标记最好先增强为富含声学信息的表示，例如梅尔频谱。

声码器可以根据其架构选择进行分类。在以下部分中，本文总结了语音语言模型（SpeechLMs）开发中最常用的声码器。

1）基于生成对抗网络（GAN）的声码器

生成对抗网络（GAN）是声码器中应用最广泛的架构。它因在语音合成任务中实现快速且高保真的生成而闻名。GAN 的架构包括生成器和判别器：具体来说，生成器从随机噪声或输入特征中创建逼真的音频波形，而判别器则将生成的音频与真实音频样本的真实性进行评估。

为了利用 GAN 合成高保真语音，研究人员设计了针对不同方面的多种训练目标：

GAN 损失

作为生成器和判别器运行的基本目标，典型选择是使用最小二乘损失函数。生成器（G）的 GAN 损失 $L_{GAN}\left ( G;D \right )$ 和判别器（D）的 $L_{GAN}\left ( D;G\right )$ 分别为：

其中， $x$ 表示真实音频， $ms$ 表示其梅尔频谱。

梅尔频谱损失

由于大多数基于 GAN 的声码器从梅尔频谱合成语音波形，该损失用于对齐生成器合成的梅尔频谱与真实波形转换的梅尔频谱，以提高生成语音的保真度。其公式为：

其中 $\phi \left ( \cdot \right )$ 是将波形转换为对应梅尔频谱的函数。

特征匹配损失

为进一步提升生成保真度，该损失通过 L1 距离对齐真实样本和生成样本在判别器编码后的特征，公式为：

其中 $D^{i}\left ( \cdot \right )$ 和\ $N_{i}$ 分别表示判别器第 $i$ 层的特征和特征数量。

2）基于 GAN 的神经音频编解码器

鉴于许多神经音频编解码器采用 GAN 架构，可在基于 GAN 的声码器框架下对其进行有效讨论。与语音标记器不同，编解码器中的解码器被用作声码器。Polyak 等人将 HiFi-GAN 用作声码器主干，并提出将声码器的输入特征分解为不同属性，包括语义标记、音高标记和说话人嵌入。这种设计选择使编解码器能更好地完成与音高和说话人相关的任务，如语音转换和基频（F0）操控。

3）其他类型声码器

声码器的类型不仅限于上述在 SpeechLMs 中常用的种类。本节简要概述其他尚未在 SpeechLMs 中作为组件深入探索的潜在声码器类型。

纯信号处理声码器：纯信号处理声码器是依赖确定性算法而非深度学习模型合成语音的传统方法。然而，这类声码器会在合成音频中引入明显伪影，现已很少使用。
自回归声码器：自回归声码器逐样本生成音频波形，每个样本依赖于先前生成的样本 [31]。由于其序列生成特性和捕捉音频信号中复杂时间依赖关系的能力，该方法可实现高质量音频合成。但序列生成过程计算开销大、耗时长，导致自回归模型相比基于 GAN 的并行化方法效率更低。
基于流的声码器：基于流的声码器旨在建立一系列可逆变换，将简单分布（如高斯分布）映射到音频样本的复杂分布。该机制支持高效采样和密度评估，使模型能并行而非序列合成音频，显著提升速度和质量 [33]。但相比基于 GAN 的声码器，基于流的声码器通常需要更多参数和内存进行模型训练，这阻碍了其有效应用 [89]。
基于变分自编码器（VAE）的声码器：变分自编码器（VAE）是强大的生成模型，可学习将输入数据编码为压缩潜在空间，同时支持原始数据的重建。然而，VAE 很少被探索作为声码器的底层架构。
基于扩散的声码器：扩散模型近年来成为一类强大的生成模型，可用于高保真语音合成。其原理是通过逐步向输入数据（如音频波形）添加噪声来创建一系列噪声递增的表示，然后学习逆转这一过程以生成新样本。例如，DiffWave使用去噪扩散概率模型（DDPM）合成音频。

基于 GAN 的声码器 vs 基于 GAN 的神经音频编解码器

对比维度	基于 GAN 的声码器	基于 GAN 的神经音频编解码器
核心功能	将声学特征（如梅尔频谱）转换为音频波形，侧重波形生成	对音频进行分析 - 压缩 - 表示（离散令牌），并支持波形重建，强调语音信息的语义 / 声学联合建模
输入	声学特征（如梅尔频谱、语音标记等）	原始音频波形（分析阶段）或离散声学令牌（解码阶段）
输出	原始音频波形	离散声学令牌序列（分析阶段）或音频波形（解码阶段）
模型架构重点	生成器专注于波形细节还原，判别器强化真实性评估（如多尺度 / 多周期判别）	分析模块（编码器 + 量化器）提取令牌，解码模块（生成器）重建波形，强调令牌对语音信息的压缩表示
关键技术	- 全卷积网络、转置卷积上采样； - 多感受野融合（MRF）、多周期判别器（MPD）	- 矢量量化（VQ）、残差矢量量化（RVQ）； - 令牌与语义 / 声学特征的解耦（如分离音高、说话人嵌入）
应用场景	- 文本转语音（TTS）、语音转换、语音增强； - 单纯的波形合成任务	- 语音 - 文本跨模态交互（如 SpeechLM 输入 / 输出）； - 语音指令理解、多模态对话系统、语音表示学习
与LLM结合方式	作为独立模块，处理 LLM 生成的文本或标记→波形转换	直接为 LLM 提供语音的离散表示（令牌），或接收 LLM 生成的语音令牌进行波形合成，形成端到端语音交互
典型模型	HiFi-GAN、MelGAN、ParallelWaveGAN	XCodec2、BiCodec、RVQ-GAN、SpeechTokenizer

三、训练策略

本节对近期语音语言模型（SpeechLM）论文中常用的训练策略进行分类和总结，包括 SpeechLM 建模的特征类型概述、各训练阶段及每个阶段使用的技术，以及不同的语音生成范式。

A. 建模特征

建模特征指语音标记器输出并由 SpeechLM 中语言模型组件建模的特征或标记类型。这些特征对决定 SpeechLM 的能力和性能至关重要。不同特征从不同角度对语音波形进行建模。本节总结 SpeechLM 中常用的特征，并重点分析不同特征如何影响 SpeechLM 的性能。根据最新进展，可将 SpeechLM 建模的特征分为两大类：离散特征和连续特征。

1.离散特征

离散特征（或离散标记）指语音信号的量化表示，可表示为不同的可数单元或标记。这些特征通常通过各种编码和量化过程从语音信号中提取，形成有限的可能值集合。离散特征是最SpeechLMs 最常用的特征，因为它们可以表示为标记，并且与 TextLM 中的文本标记采用完全相同的方式建模。

大多数 SpeechLMs 仅使用语义标记（由语义理解标记器生成）来表示语音，因为语义信息在口语交流中起着最关键的作用。首个 SpeechLM——GSLM 比较了三种标记器，包括对比预测编码（CPC）、wav2vec 2.0 和 HuBERT，结论是 HuBERT 在语音重合成和语音生成等各种任务中表现最佳。大量研究沿用这一设置，将 HuBERT 作为语音标记器。AudioPaLM对 w2v-bert、USM-v1和 USM-v2（USM-v1 的改进版）进行了对比实验，发现 USM-v2 在 ASR 和语音翻译（ST）任务中是性能最佳的语音标记器。

尽管语义标记由于对语音波形中的上下文信息进行了建模，在生成语义连贯的语音方面表现出色，但研究人员发现，仅基于语义标记生成的语音缺乏韵律、不同音高或音色等表达性信息。为克服这一限制，可将副语言标记集成到建模过程中，以捕捉语音中的表达性信息。pGSLM提出使用基频（F0）和单元持续时间作为韵律特征，以补充 HuBERT 语义标记，并训练多流 Transformer 语言模型分别预测语义标记、音高（F0）和单元持续时间。类似地，SPIRIT-LM用音高和风格标记补充 HuBERT 语义标记。这种额外声学标记的引入使 SpeechLMs 能够更有效地捕捉表达性元素，同时不会显著影响语义理解。

另一种是声学标记，其目标是捕捉重建高保真语音所需的关键声学特征，主要从神经音频编解码器模型中获取。一些研究直接在语言模型中对编解码器标记进行建模，这类模型通常被称为编解码器语言模型（CodecLMs）。例如，Viola练了一个能够执行 ASR、TTS 和机器翻译的 CodecLM；Parrot在 VQ-VAE标记上进行训练，以建模双通道口语对话数据。

讨论：不同类型的标记以不同方式影响 SpeechLMs 的语音质量，通常会导致权衡。例如，尽管语义标记与文本对齐良好，擅长生成语义连贯的语音，但生成的语音往往缺乏高频信息等声学细节。恢复和增强这些细节通常需要后处理（如扩散模型），这会显著增加模型延迟。相反，声学标记可促进高保真音频的生成，但在内容生成准确性方面往往存在不足。研究人员尝试了两种方式来平衡这些权衡：第一种是将语义和声学标记组合成单一序列，AudioLM提出了一种分层建模方案，首先对 w2v-bert的语义标记进行建模，然后使用这些标记预测 SoundStream 的声学标记，最终生成语音，但这种方法增加了序列长度，从而提高了建模复杂度；第二种策略利用混合标记联合建模语义和声学信息，在 Moshi 和 SpeechGPT-Gen中显示出良好效果。

2.连续特征

与离散特征相比，连续特征（或连续标记）是语音信号的未量化实值表示，存在于连续尺度上（连续标记）。连续特征可包括梅尔频谱图等频谱表示或从神经网络中提取的潜在表示。Spectron通过逐帧预测频谱图来执行语音延续；Mini-Omni 和 SLAM-Omni 从冻结的 Whisper 编码器中提取中间表示作为 SpeechLM 的输入，而 LauraGPT 则使用与语言模型一起训练的音频编码器从输入语音中推导潜在表示。连续特征可以捕捉语音中可能在离散化过程中丢失的细粒度、细微特征。然而，利用这些特征通常需要修改现成的语言模型训练流程，因为传统的基于文本的模型是为处理离散单元而构建的。此外，与离散特征相比，连续特征需要更多的存储容量。

B. 训练阶段

训练 SpeechLM 涉及训练三个主要组件：语音标记器、语言模型和声码器。与 TextLMs 类似，训练 SpeechLMs 的关键在于有效建模语音延续性，这主要由语言模型负责。语音标记器和声码器通常依赖成熟方法，并使用特定于每种 SpeechLM 方法的不同训练数据集进行训练。因此，本节回顾用于训练语言模型组件的主要技术。遵循 TextLMs 的流程，我们将 SpeechLMs 的训练过程分为三个阶段，包括预训练、指令微调和后期对齐。

1.语言模型预训练

SpeechLMs 中语言模型的预训练是一个关键阶段，显著影响模型生成连贯且上下文相关语音的能力。此阶段通常涉及训练语言模型在大规模语音标记语料库上以自回归方式预测下一个标记。此阶段的主要目标是学习语音数据中固有的统计模式和依赖关系，使模型能够基于前文语境预测序列中的下一个标记。

训练数据

SpeechLMs 预训练主要利用大规模开源语音数据，常用数据集包括用于 ASR、TTS、ST、播客和对话的数据集。下表列出了预训练阶段使用的流行数据集。一些数据集仅包含语音数据，而另一些则同时包含语音和对应的文本转录。

冷启动初始化

一些语音语言模型（SpeechLMs）在预训练阶段采用冷启动初始化，即模型参数通过随机方式初始化。开创性的SpeechLM——GSLM从零开始训练了一个 Transformer作为语言模型。该研究验证了 SpeechLM 框架的有效性，并对比了不同语音标记器的性能。结果表明，在理解语音内容和生成自然语音方面，HuBERT 的表现优于 CPC 和 wav2vec 2.0。SUTLM 同样使用 Transformer 作为语言模型，通过比较四种不同的建模方法（纯语音、纯文本、语音 - 文本拼接、语音 - 文本交替），研究了语音和文本标记联合建模的关键问题。他们发现，语音 - 文本交替的设置在跨模态评估中表现最佳，下表展示了这四种建模方法。

部分研究采用了不同于标准 Transformer 的架构。当模型架构与标准 Transformer 或文本语言模型（TextLM）差异较大时，通常需要从零开始训练。例如，pGSLM提出了多流 Transformer 语言模型（MS-TLM），该模型接收多流输入并预测多流输出，以同时生成语音单元、时长和音高嵌入；dGSLM 引入了对话 Transformer 语言模型（DLM），用于联合建模双方对话的语音数据；为了使 SpeechLMs 具备边听边说的能力，LSLM 提出在基于自回归标记的文本转语音（TTS）模型上附加流式自监督学习（SSL）编码器。

持续预训练

与冷启动初始化不同，持续预训练是指使用 TextLM 的预训练权重初始化语言模型，再使其适应处理语音标记。这种方法利用了 TextLM 中嵌入的语言知识，使 SpeechLMs 的训练更高效。Hassid 等人发现，从文本预训练的语言模型（如 OPT和 LLaMA）开始训练，可提高模型的收敛速度，并显著增强其语音理解能力。他们还证明，尽管从文本预训练检查点开始训练优于冷启动初始化，但从图像预训练检查点开始的效果比冷启动更差，这表明并非所有预训练检查点都具有同等效力。此外，AudioPaLM使用 PaLM 和 PaLM-2训练 SpeechLM，结果表明，预训练检查点规模的扩大和训练数据集的增大均能提升 SpeechLM 的性能。

通过对齐文本和语音模态的表示，可进一步提升 SpeechLMs 的性能。部分研究在单一序列中对齐文本和语音表示：SPIRIT-LM 发现，使用文本和语音交替标记在 TextLM 检查点上进行持续预训练，可显著提升模型在语音理解和生成任务上的表现。此外，可视化结果显示，与未采用交替标记训练的模型相比，采用该方法训练的模型中，文本和语音特征的相似度显著更高。Spectron 通过联合监督多个目标来解决文本 - 语音表示对齐问题：首先将输入语音提示转录为文本标记，然后模型预测文本标记响应，最后将文本响应合成为语音输出。SpeechGPT 也采用了这一理念，但将其应用于指令微调阶段。

另一些方法则进行多序列表示对齐，即同时生成文本序列和语音序列。例如，Llama-Omni 使用大语言模型（LLM）的输出隐藏状态来解码文本标记，并同时生成离散语音标记；Mini-Omni 并行生成单文本标记序列和七组声学标记序列，所有序列在句子级别对齐；类似地，Moshi 并行生成单文本标记序列、单语义标记序列和七组声学标记序列，所有序列在单词级别对齐。

对齐文本和语音表示的主要目标是利用基于文本的模型优势来增强基于语音的模型。研究人员发现，训练 SpeechLM 比训练 TextLM 更具挑战性 —— 文本是知识的浓缩形式，而语音需要模型独立学习口语规则。尽管文本 - 语音表示对齐已被证明有效，但也涉及多种权衡：首先，文本主要传递语义信息，这虽能提升 SpeechLM 的语义建模能力，但在对齐过程中可能削弱其捕捉副语言特征（如语气、情感）的能力；其次，对齐模型主要有两种推理方式：含文本推理和无文本推理。含文本推理同时解码文本和语音，可能增加延迟，但能增强 SpeechLM 的推理能力并减少可能的幻觉；相反，无文本推理推理效率更高，但可能缺乏稳定性。此外，是否融入文本模态以提升 SpeechLM 性能仍是一个悬而未决的问题，尤其是考虑到人类通常在掌握书面语言之前就已习得口语能力。

2.语言模型指令微调

指令微调指的是对 SpeechLMs 进行微调以遵循特定指令，从而执行广泛任务的过程。此阶段对增强预训练模型的泛化能力、使其更适应多样化应用至关重要，因此核心在于构建有效的指令跟随数据集。

研究已提出多种构建 SpeechLMs 指令跟随数据集的方法：

SpeechGPT 和 SpeechGPT-Gen 提出两阶段指令微调，包括跨模态指令微调与模态链指令微调。第一阶段基于 ASR 数据集生成指令数据，通过在配对 ASR 数据后附加指令，要求模型将语音转换为文本；类似地，配对数据也用于创建执行 TTS 的指令数据。第二阶段通过 TTS 转换基于文本的指令跟随数据集，构建 “语音输入 - 语音输出” 数据集。
Llama-Omni 通过合成基于文本的数据集创建指令跟随数据，遵循特定约束：首先将输入文本提示转换为模拟自然语音模式的格式，然后丢弃原始文本响应，使用 TextLM 生成符合自然语音模式的答案，最后通过 TTS 合成提示 / 响应对。
COSMIC 通过让 GPT-3.5 基于英语 TED 演讲转录生成问答对，构建语音问答数据。实验表明，在该数据集上训练的模型可通过上下文学习泛化到语音到文本翻译等未见任务。

3.语言模型后期对齐

后期对齐是优化语言模型行为以符合人类偏好的关键过程，确保其输出安全可靠，通常被视为语言模型训练的最后阶段。该阶段常采用人类反馈强化学习（RLHF）技术，如近端策略优化（PPO）和直接偏好优化（DPO）。

SpeechLMs 的后期对齐聚焦于解决语音交互流程中的独特挑战：

Align-SLM 发现 SpeechLMs 在相同提示下常生成语义不一致的内容，其解决方案是通过 ASR 将 SpeechLMs 的响应转录后，使用 TextLM 从多个响应中选择偏好输出，再通过 DPO 对齐这些偏好。
SpeechAlign 则关注 SpeechLMs 的声学质量，观察到 “黄金” 语音标记与语言模型生成标记的差异会导致声码器合成语音时声学质量下降。为此，其采用多种优化技术使语言模型输出与 “黄金” 标记的分布对齐。

尽管后期对齐至关重要，但在 SpeechLMs 中的探索仍不充分。其关键应用之一是缓解生成模型的安全风险，因此未来研究应优先识别和解决 SpeechLMs 特有的安全挑战。

C. 语音生成范式

前文讨论的多数方法遵循 SpeechLMs 的传统生成范式，即接收预定义输入序列并生成完整响应，但这种方式未能反映语音交互的自然流程。例如，对话中一方可能打断另一方，或在对方与他人交谈时选择不回应。基于此，本文认为 SpeechLMs 的高级语音交互能力包含两个核心方面：实时交互与交互周期识别。

实时交互

指 SpeechLMs 与用户即时互动的能力，包含两个关键组件：

用户打断：模型应能被用户打断，并对对话中提供的新指令做出适当响应。
同步响应：模型应能在用户仍在说话时生成响应，这要求其同时执行语音理解（处理输入）和语音生成（产生输出），部分文献将此能力称为 “全双工建模”。

具体实现包括：

dGSLM 引入双 Transformer 架构建模双方对话，每个 Transformer 处理一方语音，并通过交叉注意力层捕捉双方内容的交互。
Parrot 提出 “下一标记对预测” 方法，使用单一仅解码器 Transformer，通过在每个时间步预测双方通道的标记来同步建模双声道。
Moshi 将用户输入通道与模型响应通道拼接，采用 RQ-Transformer 先沿时间维度再沿通道维度处理数据。
LSLM 使用仅解码器 Transformer 聚焦建模对话中一方的语音，结合流式 SSL 编码器持续处理监听通道的输入，并将其嵌入与说话通道的嵌入融合。

交互周期识别（IPR）

指识别用户是否在与模型交互的能力。模型应在交互周期内响应，在非交互周期保持沉默。IPR 对创建自然对话流至关重要，可避免模型不必要的打断，尤其适用于小组讨论场景 —— 模型需判断何时加入对话、何时保持沉默。此外，模型还需要学会在用户并非对其说话时忽略指令。实现交互周期识别的一种方法是使用语音活动检测（VAD）模块。MiniCPM-o 2.6 集成了 VAD 模块，确保模型仅在输入音频超过预设 VAD 阈值时响应。低于此阈值的输入会被视为噪声并忽略。VITA 则采用不同方法，训练语音语言模型（SpeechLM）区分查询语音和非查询音频。当检测到非查询音频时，模型会学习输出序列结束标记以终止响应。

四、下游应用

与自动语音识别（ASR）和文本转语音（TTS）等通常专注于特定任务的传统语音系统不同，语音语言模型（SpeechLMs）作为生成式基础模型，可通过遵循各类指令处理纯语音、纯文本和多模态任务。本节探讨 SpeechLMs 的主要下游应用，这些任务既包括传统语音相关任务，也包括 SpeechLMs 特有的任务。相较于仅生成包含语义信息文本的文本语言模型（TextLMs），SpeechLMs 可同时建模语义和副语言信息（如音高、音色），因此功能更强大。我们将 SpeechLMs 的下游应用分为三大类：语义相关应用、说话人相关应用和副语言相关应用。下表列出了每个下游任务的示例。

A. 语义相关应用

语义相关应用涵盖促进人机有意义交互的关键任务，要求 SpeechLMs 理解输入的语义含义，并生成不仅上下文相关且逻辑连贯的响应。SpeechLMs 的主要语义相关应用如下：

口语对话、语音翻译、自动语音识别、关键词检测、文本转语音合成、意图分类、槽位填充

B. 与说话人相关的应用

说话人识别、说话人验证、说话人日记化、语音条件语音生成

C. 副语言应用

情感识别、语音分离、副语言增强生成

五、评估

与文本语言模型（TextLMs）类似，语音语言模型（SpeechLMs）具备广泛能力，这使得比较不同 SpeechLMs 具有挑战性。因此，从多个角度评估 SpeechLMs 的有效性至关重要。本节回顾评估 SpeechLMs 的常用方法和基准，并将这些评估方法分为自动评估和人工评估，每类包含不同的评估维度。

A. 自动（客观）评估

自动评估方法对快速、一致地评估 SpeechLMs 至关重要，这些方法通常依赖无需人工干预即可计算的定量指标。以下概述最常用的自动评估技术：

表示评估：表示（嵌入）是 SpeechLMs（及 TextLMs）的关键组件，指输入数据（如语音或文本）转换为模型可理解和处理格式的方式。

语言评估：语言学评估（包括词汇、句法和语义评估方法）衡量模型生成和理解构词、造句及有意义内容规则的能力，关注词汇选择的正确性和适当性、输出的语法结构，以及生成内容的连贯性和相关性。

副语言评估：与语言评估不同，副语言评估关注伴随语音的非语言交流方面。一些研究选择将副语言标记与语义标记结合使用，以增强语音语言模型（SpeechLMs）的副语言能力，因此一种方法是评估副语言标记。

生成质量与多样性：质量和多样性是模型生成的两个关键维度。通常，在不同温度参数下采样模型响应时，这两个维度存在权衡。

实时交互评估：旨在衡量 SpeechLMs 的实时交互能力，这对支持全双工通信的模型至关重要。当前研究聚焦于评估实时生成语音的自然性和实用性。

下游任务评估：指评估 SpeechLMs 执行特定任务的能力（如 ASR、TTS、说话人识别等），可通过在提示开头添加少样本示例对预训练模型评估，或直接指令微调模型执行任务。

B. 人工（主观）评估

人工评估在 SpeechLMs 性能评估中至关重要，因为语音本质上是供人类聆听和感知的。这类评估依赖人类判断来衡量 SpeechLMs 生成输出的质量，以下概述几种常用人工评估方法：

平均意见得分（MOS）

平均意见得分是语音评估领域广泛使用的指标，用于量化人类听众对语音输出的感知质量。通常，一组评估者聆听 SpeechLM 生成的一系列音频样本，并按预定义量表（通常从 1 分（质量差）到 5 分（质量优））对每个样本评分。
MOS 通过计算所有评估者对每个音频样本的评分均值得出，提供反映人类整体感知质量的单一分数。MOS 的变体聚焦语音质量的不同方面，包括 MMOS、PMOS 和 SMOS，分别评估给定语音的自然度、韵律和音色相似度。

六、结论

本综述全面概述了语音语言模型（SpeechLMs）的最新进展。首先讨论了将自动语音识别（ASR）、大型语言模型（LLMs）和文本转语音（TTS）系统结合用于语音交互的简单框架的局限性，接着强调了 SpeechLMs 的关键优势。随后，探讨了 SpeechLMs 的架构，详细介绍了所涉及的组件及其训练策略，还讨论了它们在各种下游应用中的能力以及不同的评估方法。

查看全文

http://www.dtcms.com/a/257807.html