当前位置: 首页 > news >正文

阿里云推出全球首个全模态AI模型Qwen3-Omni,实现文本、图像、音视频端到端处理

2025年9月23日,阿里云正式上线了全球首个原生端到端全模态AI模型Qwen3-Omni,还大方开源,这难道不意味着AI领域要迎来新的变革了吗?要知道,以往处理文本、图像、音频和视频得用不同模型,现在Qwen3-Omni一个模型就能搞定,这差距可不是一星半点。它不仅能处理多种输入类型,还能实现实时流式输出,不管是文本还是自然语音,都能快速响应,这效率简直没话说。

Qwen3-Omni

模型性能对比

模型性能对比(部分数据)

模型上下文窗口推理速度
Qwen3-Omni超长(具体未公开)极快(领先行业平均水平)
Gemini2.5Pro较长快(行业较高水平)

跨模态先进表现

Qwen3-Omni模型在多个领域都展现出了跨模态的先进表现。它通过早期以文本为核心的预训练和混合多模态训练,拥有了强大的多模态能力。在音频和视频性能上,它表现尤为出色;在文本和图像效果上,也能保持高标准。

据36项音频和视频的基准测试显示,Qwen3-Omni在22项中达到了最新领先水平,尤其是在自动语音识别和音频理解等领域,和同行业的Gemini2.5Pro不相上下。值得一提的是,在图像生成领域,Qwen3-Omni生成的高清图像,色彩鲜艳且细节丰富,和传统图像生成模型相比,优势明显。

Qwen3-Omni

强大语言支持与架构设计

Qwen3-Omni的语言支持能力也十分强大。它支持119种文本语言和19种语音输入语言,还有10种语音输出语言,像英语、中文、法语和德语等多种语言都涵盖在内。

这让它能更好地服务全球用户,不管用户来自哪个国家、说什么语言,都能轻松使用。其创新的架构设计基于MoE(专家混合)系统,结合了AuT预训练,让模型具有强大的通用表征能力。同时,多码本设计确保了低延迟的实时音频和视频交互,能让自然对话流畅进行。

文本转语音模型Qwen3-TTS

除了Qwen3-Omni,阿里云还发布了Qwen3-TTS,这是一个支持17种音色选择的文本转语音模型。该模型在多项评估基准中表现出色,超越了多款竞品,尤其在语音稳定性和音色相似度方面表现突出。想象一下,用Qwen3-TTS转换出来的语音,就像真人说话一样自然流畅,是不是很神奇?

图像编辑工具Qwen-Image-Edit-2509

Qwen-Image-Edit-2509是另一个新发布的工具,它专注于图像编辑的多图像支持,显著提升了编辑的一致性和效果。它不仅能处理单图像,还支持多图像的拼接编辑,能满足更复杂的编辑需求。比如,你想把几张照片拼接成一张有创意的大图,用Qwen-Image-Edit-2509就能轻松实现。

Qwen3-Omni模型地址

模型地址: https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

GitHub地址:https://github.com/QwenLM/Qwen3-Omni

文章来源:AITOP100,原文地址:阿里云推出全球首个全模态AI模型Qwen3-Omni,实现文本、图像、音视频端到端处理-AITOP100,AI资讯

http://www.dtcms.com/a/398849.html

相关文章:

  • git介绍
  • ELK 企业级日志分析系统实战指南
  • 可以做网站首页的图片素材上海网站优化推广
  • Node.js 性能优化:实用技巧与实战指南
  • 优化网站做内链接wordpress设置图片切换时间
  • docker 常用命令(包含:镜像、容器、网路)
  • LLJIT执行引擎:ExecutionSession与JITDylib详解
  • 小九源码-springboot038-基于springboot的中医院问诊系统
  • 【linux内核驱动day01】
  • 网站开发人员趋势外贸网站和内贸
  • 2025最新超详细FreeRTOS入门教程:第二十四章 FreeRTOS与低功耗设计
  • 如何做有效的Bug管理?
  • Metal - 4.深入剖析顶点函数(Vertex Function)
  • 收费网站开发百度关键词优化策略
  • 营销型企业网站群策略网站建设维护与推广
  • 【JNA】JAVA使用JNA调用C++ dll文件(2)JNA 对接代理DLL
  • 新网 主办网站已备案建站系统做网站
  • 网站备案 历史seo流量排行榜神器
  • C++ 中的 static 关键字:类成员、局部变量与单例模式
  • 【 设计模式 | 行为型模式 观察者模式 】
  • seo 网站案例怀化优化网站排名
  • Rust 最小可行 MQ 架构实现指南
  • 公司网站设计报价电商网站建设设计报告总结
  • 【Python】迭代器
  • 【数据迁移】:MySQL 环境下【大表定义变更】一致性保障与数据迁移优化方案
  • 织梦禁止网站右击重庆企业
  • 金融系统的“防火墙”:数字孪生如何模拟风险攻击
  • 埃拉托斯特尼筛法(Sieve of Eratosthenes)——原理、复杂度与多种 C++ 实现
  • 【大模型-金融】Trading-R1 多阶段课程学习
  • 建网站知乎怎么样上传网站资料