当前位置：首页 > news >正文

【每日论文】Qwen2.5-Omni Technical Report

news 2025/8/25 11:54:11

下载PDF或查看论文，请点击：

LlamaFactory - huggingface daily paper - 每日论文解读 | LlamaFactory | LlamaFactory探索LlamaFactory，为你解读AI前沿技术文章，快速掌握最新技术动态https://www.llamafactory.cn/daily-paper/detail/?id=1794

摘要

在本报告中，我们介绍了Qwen2.5-Omni，这是一个端到端的多模态模型，旨在感知多种模态，包括文本、图像、音频和视频，并同时以流式方式生成文本和自然语音响应。为了实现多模态信息输入的流式传输，音频和视觉编码器都采用了分块处理方法。为了同步视频输入的时戳与音频，我们将音频和视频以交错的方式依次组织，并提出了一种名为TMRoPE（时间对齐多模态RoPE）的新型位置嵌入方法。为了同时生成文本和语音，避免两种模态之间的干扰，我们提出了Thinker-Talker架构。在这个框架中，Thinker作为一个负责文本生成的大型语言模型，而Talker则是一个双通道自回归模型，它直接利用Thinker的隐藏表示来生成音频标记作为输出。Thinker和Talker模型都设计为以端到端的方式进行训练和推理。为了以流式方式解码音频标记，我们引入了一个滑动窗口DiT，以限制感受野，旨在减少初始包延迟。Qwen2.5-Omni与同样大小的Qwen2.5-VL相当，并优于Qwen2-Audio。此外，Qwen2.5-Omni在多模态基准测试如Omni-Bench上实现了最先进的性能。值得注意的是，Qwen2.5-Omni在端到端语音指令跟随方面的性能与其处理文本输入的能力相当，这由MMLU和GSM8K等基准测试所证明。至于语音生成，Qwen2.5-Omni的流式Talker在鲁棒性和自然度方面优于大多数现有的流式和非流式替代方案。

一句话总结

Qwen2.5-Omni提出了一种统一的多模态模型，能够处理文本、图像、音频和视频，并以流式方式同时生成文本和自然语音响应。

问题1：这篇论文想要解决什么具体问题？

问题背景：当前的多模态模型在处理不同模态信息时存在效率低下、模态融合不足、响应延迟等问题。
现有方案不足：现有模型在处理多模态信息时往往需要将不同模态的信息分别处理，导致处理效率低下且响应延迟。
研究目标：设计一个统一的多模态模型，能够高效地处理多模态信息，并以流式方式同时生成文本和自然语音响应。

问题2：论文的核心创新点是什么？

技术创新：提出了TMRoPE（时间对齐多模态RoPE）算法，用于同步音频和视频的时间戳；设计了Thinker-Talker架构，分别处理文本生成和语音生成。
方法改进：采用块状处理方法，将长序列的多模态数据处理分解，提高处理效率；引入滑动窗口DiT模型，减少初始包延迟。
优势：与现有方法相比，Qwen2.5-Omni在多模态理解、语音生成等方面具有更高的效率和准确性。

问题3：实验结果如何验证了方法的有效性？

关键实验：在多个多模态基准测试中进行了评估，包括Omni-Bench、MMLU、GSM8K等。
性能提升：在多模态理解任务中，Qwen2.5-Omni在Omni-Bench上取得了最先进的性能；在语音生成任务中，其流式Talker在鲁棒性和自然度方面优于大多数现有方法。
对比结果：与Qwen2.5-VL和Qwen2-Audio相比，Qwen2.5-Omni在图像和音频处理能力上表现更优。