当前位置：首页 > news >正文

阿里通义实验室突破空间音频新纪元！OmniAudio让360°全景视频“声”临其境

news 2025/7/15 16:27:29

在虚拟现实和沉浸式娱乐快速发展的今天，视觉体验已经远远不够，声音的沉浸感成为打动用户的关键。然而，传统的视频配音技术往往停留在“平面”的音频层面，难以提供真正的空间感。阿里巴巴通义实验室（Qwen Lab）旗下的语音团队最近取得了一个重大突破 —— OmniAudio 技术，能够直接从360°视频中生成空间音频（FOA），真正实现了“所见即所听”，大幅提升虚拟现实中的沉浸感。

为什么空间音频如此重要？

想象一下你戴着VR头显，站在一个繁忙的城市广场。如果你只听到“立体声”，你可能只能感受到声音的左右方向；但如果你听到一个小贩从你后方推车经过、前方的街头艺人正在唱歌、右上方的钟楼敲响，你的身体会自然转向声音来源——这正是**空间音频（Spatial Audio）**带来的沉浸感。

**FOA（First-order Ambisonics）**是一种主流的空间音频格式，它用4个声道（W, X, Y, Z）来描述声音的位置和方向。简单来说，如果你把听觉比作摄影，这种格式就像是“全景相机”，可以捕捉整个空间的声音场景，而不仅仅是某一个角度。

现有技术的痛点：角度太“死板”

虽然空间音频的技术已存在一段时间，但目前很多视频生成音频的方法都存在明显的缺陷：

只处理固定视角的视频，无法真正体现“环绕”音效；
生成的是“普通”音频，缺乏声音方向感；
忽视了360°视频本身蕴含的丰富视觉线索。

而随着360°相机的普及和VR内容的兴起，观众越来越期待音画一致的沉浸体验——而这正是OmniAudio所要解决的难题。

Qwen Lab 的解法：360V2SA 任务 + Sphere360 数据集

为了解决这个痛点，研究团队提出了一个全新的任务定义：360V2SA（360-degree Video to Spatial Audio）。意思就是：让360°视频配上真正匹配其空间结构的音频。

但这里面有一个大难题——数据匮乏。

训练AI模型需要大量的视频+空间音频配对数据，而现实中360°视频和FOA音频的组合极其稀缺。为此，团队构建了一个超大规模数据集 Sphere360：

包含 103,000+ 真实视频片段；
覆盖 288类音频事件（如掌声、引擎声、鸟叫等）；
总时长达到 288小时；
所有数据都经过严格清洗和对齐，确保“看得见”的画面与“听得见”的声音严格对应。

OmniAudio 是如何学习“空间感”的？

OmniAudio 的训练分为两个阶段，可以类比为“先学基础，再练精细”：

✅ 阶段一：自学成才（Self-Supervised）

团队利用海量的普通立体声数据，先“伪造”出假FOA（称为“伪FOA”），让模型通过一种叫“流匹配（flow-matching）”的方法，自己摸索声音的时间结构和空间规律。

类比一下：就像你用模糊地图自学城市布局，虽然不精确，但能掌握大致方位和路线感。

为了让模型更强健，团队还故意“打码”音频片段（即随机遮住部分时间段），让模型学会“脑补”缺失的信息。这一步帮助它打下了很好的“声音空间感”基础。

✅ 阶段二：精雕细琢（Supervised Fine-tuning）

接着，团队拿出真实的FOA音频数据，结合视频的“双分支视觉编码器”（可以同时提取场景信息和运动信息），进一步精细训练模型，让它能够根据画面“雕刻”出精准的空间音轨。

最终，OmniAudio 能够根据画面中的视觉线索，比如“汽车从左边开过来”，输出与之完美匹配的空间音频。

效果如何？超越所有对手！

在测试阶段，研究团队使用了两个测试集：Sphere360-Bench 和 YT360-Test，并使用了客观指标（如 FD、KL、ΔAngular）和主观评测（人类听感打分）来对比性能。

结果非常惊艳：

OmniAudio 在所有指标上全面超越现有所有方法；
人类主观评分中，OmniAudio 的空间感、清晰度、画面与声音的同步度均高于最佳对比模型；
消融实验也验证了：预训练策略、双分支视觉建模、模型规模等设计对提升性能缺一不可。

虚拟世界的声音革命

OmniAudio 的出现，意味着我们离真正“沉浸式音画合一”的虚拟现实更近了一步。未来，无论是VR游戏、线上展览、虚拟旅游，还是影视制作，都将有机会用更真实、更细腻的声音打动用户。

空间音频，不再是“高端专属”，而是即将走入大众视野的“听觉革命”。

http://www.dtcms.com/a/220259.html

相关文章：

制造企业搭建AI智能生产线怎么部署？

C++：栈帧、命名空间、引用

人工智能浪潮下，制造企业如何借力DeepSeek实现数字化转型？

学习黑客小故事理解 Metasploit 的 Meterpreter

酷派Cool20/20S/30/40手机安装Play商店-谷歌三件套-GMS方法

NUMA 架构科普：双路 CPU 系统是如何构建的？

如何给老旧 iOS App 添加安全保护？用 Ipa Guard 对 IPA 文件混淆加固实录

ComfyUI+阿里Wan2.1+内网穿透技术：本地AI视频生成系统搭建实战

WebVm：无需安装，一款可以在浏览器运行的 Linux 来了

本地部署大模型llm+RAG向量检索问答系统 deepseek chatgpt

SpringBoot（五）--- 异常处理、JWT令牌、拦截技术

json转成yolo用的txt(json中没有宽高，需要自设宽高的)

VMware ESXi网络配置

Learning Discriminative Data Fitting Functions for Blind Image Deblurring论文阅读

dto vo类为什么要序列化？

跨架构镜像打包问题及解决方案

Odoo 打印功能架构与工作流程深度剖析

ADB推送文件到指定路径解析

一键提取Office内图片的工具

华为OD机试真题——字母组合过滤组合字符串（2025A卷：100分）Java/python/JavaScript/C/C++/GO最佳实现

大型工业控制系统中私有云计算模式的弊端剖析与反思

react-color-palette源码解析

leetcode hot100刷题日记——28.环形链表2

idea本地git上传gitee码云失败分析，push rejected+git手动融合

设计模式-发布订阅

工厂模式 vs 策略模式：设计模式中的 “创建者” 与 “决策者”

spark shuffle的分区支持动态调整，而hive不支持

Kubernetes面试题（基础向）

unity星空运动

Linux | Shell脚本的基础知识