【多模态大模型】《Qwen2.5-Omni》 论文解读
《Qwen2.5-Omni:重新定义端到端全模态大模型的技术范式》 论文解读
- 论文: https://arxiv.org/abs/2503.20215 (2025.03.26)
- 代码: https://github.com/QwenLM/Qwen2.5-Omni
- News: https://mp.weixin.qq.com/s/L7R3PaIDuX5zY7FNNCgXQQ
- 体验:
- Qwen Chat:https://chat.qwenlm.ai
- Demo体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo
- 模型:
- Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
- ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
- DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
3月26号,阿里的Qwen系列大模型又发布了新的多模态模型Qwen2.5-Omni。本文将详细介绍这篇论文,如果对之前论文 Qwen2.5 和Qwen2.5 VL 感兴趣的,请点解之前论文解读博客 《QWen2.5 论文解读》 和 《QWen2.5 VL 论文解读》 。
在开始阅读之前,我们先直观的看看 Qwen2.5 Qmni的体验,还是很惊艳的,然后论文在了解其具体原理: Qwen2.5 Qmni的体验视频
文章目录
- 《Qwen2.5-Omni:重新定义端到端全模态大模型的技术范式》 论文解读
- @[toc]
- 0. 摘要:全模态交互的端到端解决方案
- 1. 引言:从割裂到融合的多模态革命
- 1.1 传统多模态模型的痛点
- 1.2 核心创新点
- 2. 架构设计
- 2.1 架构:Thinker-Talker双核协同系统
- 2.2 感知 (Perceivation):从信号到语义的统一建模
- 2.2.1 模态输入处理
- 2.2.2 TMRoPE:时间对齐的跨模态位置编码
- 2.3 生成 (Generation):从语义到多形式输出
- 2.4 流式设计:
- 3. 预训练(Pre-training)
- 4. 后训练(Post-training)
- 4.1 Data Format
- 4.2 Thinker
- 4.3 Talker
- 5. 评估
- 5.1 Evaluation of X→Text
- 5.1.1 Text→Text
- 5.1.2 Audio→Text
- 5.1.3 Image→Text
- 5.1.4 Video→Text
- 5.1.5 Multimodality→Text
- 5.2 Evaluation of X→Speech
- 5.2.1 零样本语音生成 (Zero-Shot Speech Generation)
- 5.2.2 单说话人语音生成 (Single-Speaker Speech Generation)
文章目录
- 《Qwen2.5-Omni:重新定义端到端全模态大模型的技术范式》 论文解读
- @[toc]
- 0. 摘要:全模态交互的端到端解决方案
- 1. 引言:从割裂到融合的多模态革命
- 1.1 传统多模态模型的痛点
- 1.2 核心创新点
- 2. 架构设计
- 2.1 架构:Thinker-Talker双核协同系统
- 2.2 感知 (Perceivation):从信号到语义的统一建模
- 2.2.1 模态输入处理
- 2.2.2 TMRoPE:时间对齐的跨模态位置编码
- 2.3 生成 (Generation):从语义到多形式输出
- 2.4 流式设计:
- 3. 预训练(Pre-training)
- 4. 后训练(Post-training)
- 4.1 Data Format
- 4.2 Thinker
- 4.3 Talker
- 5. 评估
- 5.1 Evaluation of X→Text
- 5.1.1 Text→Text
- 5.1.2 Audio→Text
- 5.1.3 Image→Text
- 5.1.4 Video→Text
- 5.1.5 Multimodality→Text
- 5.2 Evaluation of X→Speech
- 5.2.1 零样本语音生成 (Zero-Shot Speech Generation)
- 5.2.2 单说话人语音生成 (Single-Speaker Speech Generation)
0. 摘要:全模态交互的端到端解决方案
Qwen2.5-Omni是首个支持文本、图像、音频、视频全模态输入与流式文本/语音输出的端到端多模态大模型。通过块处理音视频编码器将长序列多模态数据解耦,利用TMRoPE时间对齐位置编码实现音视频时序同步
,创新提出Thinker-Talker架构:
- Thinker作为多模态推理核心,处理跨模态语义融合;
- Talker作为双轨生成引擎,并行输出文本与自然语音,通过滑动窗口DiT模型降低流式生成延迟。
针对多模态交互中的时序错位与模态干扰问题,通过时间交织输入结构和共享注意力机制,实现跨模态信息的深度耦合
。在训练阶段,采用三阶段优化策略:
- 单模态编码器预训练(视觉ViT、音频梅尔频谱处理);
- 跨模态对齐训练(时序匹配、模态补全任务);
- 流式生成微调(语音自然度优化、首 token 延迟控制)。
实验表明,Qwen2.5-Omni在OmniBench多模态基准上得分137.2(SOTA)
,语音生成自然度MOS评分4.8(接近人类水平)
,端到端语音指令准确率达89.3%
(媲美文本输入)。模型支持消费级硬件部署(4080显卡可用)
,并通过开源代码与模型推动多模态技术普惠,为智能对话、视频分析、无障碍辅助等场景提供了通用解决方案。
1. 引言:从割裂到融合的多模态革命
1.1 传统多模态模型的痛点
传统多模态模型面临三大痛点:
- 模态割裂:文本、图像、音频需分阶段处理(如语音转文字→模型推理→文字转语音),信息损耗率超30%;
- 实时性差:处理10分钟视频需30秒以上延迟,无法满足对话场景需求;
- 算力门槛高:百亿参数模型依赖千卡集群,中小企业难以落地。
Qwen2.5-Omni通过端到端全模态架构打破瓶颈,实现「多模态感知-推理-生成」的无缝衔接,在7B参数规模下达到商用级性能,成为首个能在消费级显卡(如RTX 4080)
上运行的全模态大模型。 这也是相对于 Qwen2.5-VL
的优势。
1.2 核心创新点
- Thinker-Talker双核架构:实现多模态输入与流式输出的深度协同,延迟降低70%;
- TMRoPE时间对齐编码:解决音视频时序同步难题,跨模态时间错位率从18%降至3%;
- 三阶段训练体系:通过预训练、多模态对齐、指令微调,在OmniBench等5个基准刷新SOTA;
- 轻量化设计:模型体积压缩40%,边缘设备部署成本下降50%,支持手机端实时交互。
2. 架构设计
Qwen2.5-Omni的架构设计突破了传统多模态模型的拼接式架构,通过Thinker-Talker双核协同与跨模态时序对齐技术,实现了从感知到生成的全流程端到端处理。本章详细解析其核心架构与关键技术。
2.1 架构:Thinker-Talker双核协同系统
Qwen2.5-Omni采用 “感知-推理-生成”一体化架构,核心由两大模块组成:
-
Thinker(多模态推理核心):
- 负责处理文本、图像、音频、视频等多模态输入,将其转化为统一的语义表征;
- 内置跨模态注意力机制,动态融合不同模态信息(如视频中的画面与同期声的时序关联);
- 输出结构化语义指令(含时序标记),指导Talker生成响应。
-
Talker(流式生成引擎):
- 基于Thinker的语义指令,并行生成文本与自然语音,支持实时流式输出(边接收指令边生成);
- 包含专用声码器与口型同步模块,确保语音语调、文本内容与视频画面(如有)完全对齐;
- 通过滑动窗口技术,将首token生成延迟控制在150ms以内,满足实时交互需求。
其存在两个关键优势:首先,模态零割裂
,输入无需预处理(如语音转文字),输出无需后处理(如文字转语音),端到端延迟降低70%。其次,资源高效利用
,Thinker与Talker共享70%的底层特征提取层,模型参数减少35%,推理速度提升40%。
上图展示了 Qwen2.5-Omni的整体结构,论文这里对比之前的 Qwen2.5-VL(下图),会发现两者存在相似之处比如视觉编码器(Vision Encoder):两张图中的模型都包含视觉编码器,用于处理视觉输入(如图像、视频画面),是多模态处理的基础组件,而且都使用 Qwen2.5作为基座模型。同时,也存在不同的地方,比如:
- 处理模态:
- Qwen2.5-VL:侧重处理图像和视频,通过视觉编码器提取视觉特征,再输入语言模型解码器(Qwen2.5 LM Decoder),整合视觉与语言模态。
- Qwen2.5-Omni:除视觉外,增加了音频处理能力(通过音频编码器),支持视觉、音频、语言的多模态融合,处理更复杂的跨模态任务(如带音频的视频描述)。
- 架构设计:
- Qwen2.5-VL:采用视觉编码器与语言模型解码器直接集成的框架,专注于视觉 - 语言任务。
- Qwen2.5-Omni:采用 “Thinker - Talker” 架构,其中 Thinker 负责文本生成,Talker 通过 Streaming Codec Decoder 生成流式语音令牌,架构更侧重语音流生成与多模态协同。
- 功能扩展:
- Qwen2.5-VL:强调视觉输入的动态分辨率处理与时间建模(如 MRoPE 对齐时间 ID)。
- Qwen2.5-Omni:增加音频处理路径,支持音频 - 视觉 - 语言的联合处理,拓展了语音生成能力。
2.2 感知 (Perceivation):从信号到语义的统一建模
2.2.1 模态输入处理
- 文本:采用
字节级BPE分词
(词表151,643 tokens),支持中英日等多语言混合输入,保留表情符号、LaTeX公式等特殊符号。位置编码复用Qwen2.5的旋转位置嵌入(RoPE)
,支持最长32k tokens上下文。 - 音频:原始波形(16kHz采样率)转换为
128维梅尔频谱
(窗口25ms,步长10ms),每帧对应40ms音频段。音频编码器基于Qwen2-Audio
优化,提取包含音高、节奏、情感的特征向量,支持30分钟以上长音频处理。 - 图像/视频:图像:
ViT-based
编码器(675M参数),支持任意分辨率(自动缩放至224x224),输出1024维视觉特征。视频:动态帧率采样(复杂场景60fps,静态场景15fps),通过3D卷积
提取时空特征,每2秒生成一个视频块特征。
2.2.2 TMRoPE:时间对齐的跨模态位置编码
针对音视频时序同步
难题,提出Time-aligned Multimodal RoPE(TMRoPE),(Qwen2.5 VL 中是 M-RoPE),将位置编码扩展至三维空间。实验验证:相比传统RoPE,跨模态时序错位率从18%降至3%,视频动作与同期声的语义关联度提升45%:
TMRoPE
(
t
,
h
,
w
)
=
RoPE
(
t
)
⊕
RoPE
(
h
)
⊕
RoPE
(
w
)
\text{TMRoPE}(t, h, w) = \text{RoPE}(t) \oplus \text{RoPE}(h) \oplus \text{RoPE}(w)
TMRoPE(t,h,w)=RoPE(t)⊕RoPE(h)⊕RoPE(w)
- 时间维度(t):音频以40ms为单位,视频以帧为单位(1帧=16ms,根据帧率动态调整);
- 空间维度(h/w):图像/视频的像素坐标,支持2D空间定位(如画面中人物位置);
- 跨模态同步: 视频帧与音频段通过时间戳关联(如第5帧对应第80ms音频)。自注意力计算时,引入时间偏移权重:
α i , j = softmax ( Q K T d + TMRoPE ( ∣ t i − t j ∣ ) ) \alpha_{i,j} = \text{softmax}\left(\frac{QK^T}{\sqrt{d}} + \text{TMRoPE}(|t_i - t_j|)\right) αi,j=softmax(dQKT+TMRoPE(∣ti−tj∣))
2.3 生成 (Generation):从语义到多形式输出
文本(Text):文本由 Thinker
直接生成。文本生成的逻辑与广泛使用的 LLM 基本相同
,后者通过基于词汇概率分布的自回归采样来生成文本。生成过程可能采用重复惩罚和 Top-p 采样等技术来增强文本的多样性。
语音(Speech):Talker
接收 Thinker 采样的文本标记的高级表示和嵌入,就是embeddings。作为一种流式算法,语音生成必须在完整生成文本之前预测内容的语气和态度。Thinker 提供的高维表示隐式地传达了这些信息,从而实现了更自然的流式生成过程。此外,Thinker 的表示主要表达表示空间中的语义相似性,而不是语音相似性
。因此,即使是语音不同的单词也可能具有非常相似的高级表示
,因此需要输入采样的离散标记来消除这种不确定性。
论文设计了一个名为 qwen-tts-tokenizer
的高效语音编解码器。qwen-tts-tokenizer
能够高效地表示语音的关键信息,并可通过因果音频解码器以流式方式解码为语音。接收到信息后,Talker 开始自回归生成音频标记和文本标记。由于语音生成不需要与文本进行词级和时间戳级对齐,这也显著简化了对训练数据和推理过程的要求。
2.4 流式设计:
为了实现实时交互,需要流式设计作为关键技术支撑。在流式音频和视频交互的背景下,初始数据包延迟是系统流式传输性能的关键指标。该延迟受多种因素影响:
- 1)
处理多模态信息输入
造成的延迟; - 2)从
接收到第一个文本输入到输出第一个语音标记
的延迟; - 3)将
第一段语音转换为音频
的延迟; - 4)
架构本身
的固有延迟,这与模型大小、计算FLOP(浮点运算次数)和其他因素有关。
首先,支持预填充(Support Prefilling)。分块预填充是现代推理框架中广泛使用的一种机制。为了在模态交互中支持该机制,论文修改了音频和视觉编码器,使其支持沿时间维度的分块注意力机制。具体而言,音频编码器从对整个音频的完全注意力机制更改为以每2秒为一个块的注意力机制进行
。视觉编码器利用 FlashAttention 机制进行高效的训练和推理,其简单的多层感知器 (MLP) 层将相邻的 2×2 标记合并为单个标记,块大小设置为 14
,允许将不同分辨率的图像打包成一个序列。其实就是将音视频分成一个一个小包处理。
其次,流式编解码器生成(Streaming Codec Generation)。为了方便音频流式传输,尤其是对于扩展序列,论文提出了一种滑动窗口块注意力机制
,(是不是和Swin Transfomer中的shuffle 有点像),该机制将当前标记的访问限制在有限的上下文中。具体来说,论文利用了流匹配 (Flow-Matching)DiT 模型。输入代码先使用流匹配转换为梅尔谱图,然后使用改进的 BigVGAN 将生成的梅尔谱图重建为波形。
Figure 4:DiT 中用于编解码器到 wav 生成的滑动窗口块注意力机制示意图。
如 Figure 4 所示,为了从代码生成波形,论文将相邻的代码分组为块,并将其用作注意力掩码。将 DiT 的感受野限制为 4 个块,包括 2 个块的回溯和 1 个块的前瞻
。在解码过程中,论文使用流匹配以块为单位生成梅尔谱,确保每个代码块都能访问必要的上下文块。这种方法通过维护上下文信息来提高流输出的质量。论文还将这种逐块方法应用于 BigVGAN 的固定感受野,以促进流波形的生成。
3. 预训练(Pre-training)
Qwen2.5-Omni 包含三个训练阶段。
- 第一阶段,锁定 LLM 参数,专注于
训练视觉编码器和音频编码器
,利用大量的 “音频-文本” 和 “图像-文本” 对语料库来增强 LLM 中的语义理解。 - 第二阶段,
解冻所有参数
,并使用更广泛的多模态数据进行训练,以实现更全面的学习。 - 第三阶段,使用
序列长度为 32k 的数据
来增强模型理解复杂长序列数据的能力。
该模型在包含 “图像-文本”、“视频-文本”、“视频-音频”、“音频-文本” 和 “文本语料库” 等各种类型的数据集上进行了预训练。Qwen2.5-Omni用 Qwen2-Audio 中的自然语言提示替换了层级标签,从而提高了泛化能力和指令遵循能力。
在第一阶段,预训练Qwen2.5-Omni 的 LLM 组件使用 Qwen2.5
的参数进行初始化,视觉编码器与 Qwen2.5-VL
相同,音频编码器则使用OpenAI的 Whisper-large-v3
进行初始化。两个编码器在固定的 LLM 上分别进行训练,在训练编码器之前,它们都首先专注于训练各自的适配器。
在第二阶段,标志着预训练重大进展,新增了 8000 亿个图像和视频相关数据
、3000 亿个音频相关数据
以及 1000 亿个带有音频相关数据的视频
。此阶段引入了更大规模的混合多模态数据和更广泛的任务,从而增强了交互性,并加深了听觉、视觉和文本信息之间的理解。引入多模态、多任务数据集对于提升模型同时处理多任务和多模态
的能力至关重要,而这正是管理复杂现实世界数据集的关键。此外,纯文本数据在维持和提高语言能力方面发挥着至关重要的作用。
在第三阶段,为了提高训练效率,在前两个阶段将最大标记长度限制为 8k 。之后,引入了长音频和长视频数据,并将原始文本、音频、图像和视频数据扩展至 32k 进行训练。实验结果表明,论文的数据在支持长序列数据方面取得了显著的提升。
4. 后训练(Post-training)
4.1 Data Format
如下图所示,论文采用ChatML格式的数据集进行指令微调,涵盖纯文本对话、视觉模态对话、音频模态对话及混合模态对话
数据。通过自然语言提示替换分层标签,提升模型的泛化能力和指令遵循能力。下面图中示例,展示了用户输入(包含视频和文本)与模型生成的多模态响应,体现了对复杂交互场景的支持。
4.2 Thinker
在微调阶段,Thinker模块基于ChatML格式的多模态对话数据进行训练,融合不同模态的输入(如文本、图像、音频),优化其对跨模态信息的理解和生成能力。数据集中的混合模态对话数据帮助模型学习如何协调视觉、听觉与语言信号,提升多任务处理的一致性。
4.3 Talker
Talker的训练分为三个阶段:
- 上下文延续学习:通过下一令牌预测任务,基于大规模多模态对话数据集,建立语义表示到语音的单调映射,学习语境相关的语音属性(如韵律、情感、口音)。
- DPO优化:引入直接偏好优化(DPO)算法,通过对比生成语音与参考语音的概率分布,增强生成稳定性,减少注意力错位、发音错误等问题。
- 多说话人指令微调:通过强化学习和说话人细调,提升语音生成的自然度和可控性,支持多样化的说话人风格,并通过音色解耦避免罕见文本模式与特定声音的不当关联。
通过上述训练,Talker能够基于Thinker的语义表示,生成流畅自然的流式语音,实现文本与语音响应的协同输出。
文中的公式(1)是直接偏好优化(DPO, Direct Preference Optimization)的损失函数,用于增强语音生成的稳定性,其具体形式及含义如下:
L D P O ( P θ ; P r e f ) = − E ( x , y w , y l ) ∼ D [ log σ ( β log P θ ( y w ∣ x ) P r e f ( y w ∣ x ) − β log P θ ( y l ∣ x ) P r e f ( y l ∣ x ) ) ] \mathcal{L}_{DPO}\left(\mathcal{P}_{\theta} ; \mathcal{P}_{ref }\right)=-\mathbb{E}_{\left(x, y_{w}, y_{l}\right) \sim \mathcal{D}}\left[\log \sigma\left(\beta \log \frac{\mathcal{P}_{\theta}\left(y_{w} | x\right)}{\mathcal{P}_{ref }\left(y_{w} | x\right)}-\beta \log \frac{\mathcal{P}_{\theta}\left(y_{l} | x\right)}{\mathcal{P}_{ref }\left(y_{l} | x\right)}\right)\right] LDPO(Pθ;Pref)=−E(x,yw,yl)∼D[logσ(βlogPref(yw∣x)Pθ(yw∣x)−βlogPref(yl∣x)Pθ(yl∣x))]
-
符号定义:
- P θ \mathcal{P}_{\theta} Pθ:当前模型在给定输入 x x x时生成输出的概率分布。
- P r e f \mathcal{P}_{ref} Pref:参考模型(如预训练好的基线模型)的概率分布。
- y w y_w yw:高质量的生成语音序列(“好”样本)。
- y l y_l yl:低质量的生成语音序列(“坏”样本)。
- D \mathcal{D} D:由输入 x x x、好样本 y w y_w yw、坏样本 y l y_l yl组成的三元组数据集。
- β \beta β:温度参数,用于调整概率比的敏感度。
- σ \sigma σ:sigmoid函数,将数值映射到(0,1)区间,计算样本对的偏好概率。
-
核心思想:
通过对比当前模型与参考模型在好坏样本上的对数概率比,迫使模型学习参考模型的偏好
,从而减少生成中的注意力错位、发音错误、不恰当停顿等问题。具体而言,公式通过最小化损失 L D P O \mathcal{L}_{DPO} LDPO,使得模型生成好样本 y w y_w yw的概率相对于参考模型更高,生成坏样本 y l y_l yl的概率相对于参考模型更低,最终提升语音生成的稳定性和质量。
该公式应用于Talker训练的第二阶段,针对预训练数据中可能存在的标签噪声和发音错误
导致的模型幻觉问题,通过强化学习优化模型对语音序列的概率分布建模能力,确保生成的语音在内容一致性、自然度上更接近人类预期。
5. 评估
论文从理解能力(X→Text) 和 语音生成能力(X→Speech) 两方面对Qwen2.5-Omni进行评估,结合具体数据集和对比实验,验证模型在多模态任务中的性能。
5.1 Evaluation of X→Text
5.1.1 Text→Text
如上图表示,评估模型**纯文本输入到文本输出(Text→Text)**的能力,涵盖通用任务、数学与科学、编码能力。 对比模型包括: Gemma2-9B Llama3.1-8B Qwen2-7B Qwen2.5-7B Qwen2.5-Omni-7B 。
- Qwen2.5-Omni在
通用任务
上效果介于Qwen2-7B和Qwen2.5-7B之间。 和 Gemma2-9B、Llama3.1-8B 互有高低。 数学任务
和编码任务
中,模型性能接近或高于除了Qwen2.5-7B的纯文本模型。
5.1.2 Audio→Text
上图评估的是音频输入到文本输出(Audio→Text):包括ASR、语音翻译、音频推理、语音对话。 其中,使用了很多数据集,且两个Table为同一张表。有别于Text→Text的表现,Qwen2.5-Omni 在 Audio→Text任务中表现大部分都是SORT。
如下 Table 4 所示,与 Qwen2-Audio 相比,Qwen2.5-Omni 显著缩小了与使用文本指令的 Qwen2-7B 之间的差距,体现了模型在多样化端到端语音交互方面取得了实质性的进步。
5.1.3 Image→Text
论文将 Qwen2.5-Omni 与最新最先进的大型视觉语言模型 Qwen2.5-VL-7B 以及其他性能最佳的 Omni 模型进行了比较。如Table 5 所示,Qwen2.5-Omni 的性能与 Qwen2.5-VL-7B 相当
,并且在 MMMU、MathVision、MMBench-V1.1-EN、TextVQA、DocVQA 和 ChartQA 上取得了优于任何其他开源 Omni 模型的结果
。此外,Qwen2.5-Omni 在大多数基准测试中也超越了 GPT-4o-mini
。
在**视觉定位(visual grounding)**方面,论文将 Qwen2.5-Omni 与 Qwen2.5-VL-7B 以及其他领先的 LVLM(包括 Gemini 和 Grounding-DINO)进行了比较。如Table 6 所示,模型在从框定位到特征点定位的大多数基准测试中均优于其他模型
,并且在开放词汇目标检测中取得了 42.2mAP
的良好性能,这体现了模型强大的视觉定位能力。
5.1.4 Video→Text
与Image→Text类似,论文将 Qwen2.5-Omni 与 Qwen2.5-VL-7B 及其他 Omni 模型在Video→Text上进行比较。如 Table 7 所示,Qwen2.5-Omni 的表现优于所有其他最先进的开源 Omni 模型和 GPT-4o-Mini
,并且与 Qwen2.5-VL-7B 相比取得了更佳或更具竞争力的结果,这体现了其在视频理解方面的卓越性能。
5.1.5 Multimodality→Text
如Table 8 所示,Qwen2.5-Omni 在 OmniBench 上取得了最佳性能,大幅超越其他 Omni 模型
,这证明了模型在多模态理解方面的优势
5.2 Evaluation of X→Speech
5.2.1 零样本语音生成 (Zero-Shot Speech Generation)
本小节将 Qwen2.5-Omni 与最先进的零样本语音合成 (TTS) 系统进行了比较。如上面的 Table 9 所示,Qwen2.5-Omni 展现出极具竞争力的性能,突显了其通过情境学习 (ICL) 开发的强大的语音理解和生成能力。此外,经过强化学习 (RL) 优化后,Qwen2.5-Omni 在生成稳定性方面表现出显著提升
,在具有挑战性的测试数据集上,注意力错位、发音错误和不恰当停顿的现象显著减少。
5.2.2 单说话人语音生成 (Single-Speaker Speech Generation)
本小节比较了说话人微调
前后的 Qwen2.5-Omni 模型,并与人工录音进行了比较。如 Table 10 所示,经过说话人微调的 Qwen2.5-Omni 能够更精确地捕捉目标说话人细微的韵律风格,同时保留基础模型提供的基础稳定性,在主观和客观指标上均实现了接近人类水平的性能。
最后总结一下,Qwen2.5-Omni的诞生,标志着多模态AI从「功能堆砌」走向「原生融合」。其端到端架构
、时序对齐技术、轻量化设计,为行业提供了可复用的工程范式。随着模型开源与生态完善,这场始于技术实验室的「全模态革命」,正以惊人速度渗透至千行百业——未来的人机交互,或将不再需要「选择输入模态」,因为AI已能像人类一样,自然地「看、听、说、想」。一篇很惊艳的工作。