阿里通义实验室突破空间音频新纪元!OmniAudio让360°全景视频“声”临其境
在虚拟现实和沉浸式娱乐快速发展的今天,视觉体验已经远远不够,声音的沉浸感成为打动用户的关键。然而,传统的视频配音技术往往停留在“平面”的音频层面,难以提供真正的空间感。阿里巴巴通义实验室(Qwen Lab)旗下的语音团队最近取得了一个重大突破 —— OmniAudio 技术,能够直接从360°视频中生成空间音频(FOA),真正实现了“所见即所听”,大幅提升虚拟现实中的沉浸感。
为什么空间音频如此重要?
想象一下你戴着VR头显,站在一个繁忙的城市广场。如果你只听到“立体声”,你可能只能感受到声音的左右方向;但如果你听到一个小贩从你后方推车经过、前方的街头艺人正在唱歌、右上方的钟楼敲响,你的身体会自然转向声音来源——这正是**空间音频(Spatial Audio)**带来的沉浸感。
**FOA(First-order Ambisonics)**是一种主流的空间音频格式,它用4个声道(W, X, Y, Z)来描述声音的位置和方向。简单来说,如果你把听觉比作摄影,这种格式就像是“全景相机”,可以捕捉整个空间的声音场景,而不仅仅是某一个角度。
现有技术的痛点:角度太“死板”
虽然空间音频的技术已存在一段时间,但目前很多视频生成音频的方法都存在明显的缺陷:
-
只处理固定视角的视频,无法真正体现“环绕”音效;
-
生成的是“普通”音频,缺乏声音方向感;
-
忽视了360°视频本身蕴含的丰富视觉线索。
而随着360°相机的普及和VR内容的兴起,观众越来越期待音画一致的沉浸体验——而这正是OmniAudio所要解决的难题。
Qwen Lab 的解法:360V2SA 任务 + Sphere360 数据集
为了解决这个痛点,研究团队提出了一个全新的任务定义:360V2SA(360-degree Video to Spatial Audio)。意思就是:让360°视频配上真正匹配其空间结构的音频。
但这里面有一个大难题——数据匮乏。
训练AI模型需要大量的视频+空间音频配对数据,而现实中360°视频和FOA音频的组合极其稀缺。为此,团队构建了一个超大规模数据集 Sphere360:
-
包含 103,000+ 真实视频片段;
-
覆盖 288类音频事件(如掌声、引擎声、鸟叫等);
-
总时长达到 288小时;
-
所有数据都经过严格清洗和对齐,确保“看得见”的画面与“听得见”的声音严格对应。
OmniAudio 是如何学习“空间感”的?
OmniAudio 的训练分为两个阶段,可以类比为“先学基础,再练精细”:
✅ 阶段一:自学成才(Self-Supervised)
团队利用海量的普通立体声数据,先“伪造”出假FOA(称为“伪FOA”),让模型通过一种叫“流匹配(flow-matching)”的方法,自己摸索声音的时间结构和空间规律。
类比一下:就像你用模糊地图自学城市布局,虽然不精确,但能掌握大致方位和路线感。
为了让模型更强健,团队还故意“打码”音频片段(即随机遮住部分时间段),让模型学会“脑补”缺失的信息。这一步帮助它打下了很好的“声音空间感”基础。
✅ 阶段二:精雕细琢(Supervised Fine-tuning)
接着,团队拿出真实的FOA音频数据,结合视频的“双分支视觉编码器”(可以同时提取场景信息和运动信息),进一步精细训练模型,让它能够根据画面“雕刻”出精准的空间音轨。
最终,OmniAudio 能够根据画面中的视觉线索,比如“汽车从左边开过来”,输出与之完美匹配的空间音频。
效果如何?超越所有对手!
在测试阶段,研究团队使用了两个测试集:Sphere360-Bench 和 YT360-Test,并使用了客观指标(如 FD、KL、ΔAngular)和主观评测(人类听感打分)来对比性能。
结果非常惊艳:
-
OmniAudio 在所有指标上全面超越现有所有方法;
-
人类主观评分中,OmniAudio 的空间感、清晰度、画面与声音的同步度均高于最佳对比模型;
-
消融实验也验证了:预训练策略、双分支视觉建模、模型规模等设计对提升性能缺一不可。
虚拟世界的声音革命
OmniAudio 的出现,意味着我们离真正“沉浸式音画合一”的虚拟现实更近了一步。未来,无论是VR游戏、线上展览、虚拟旅游,还是影视制作,都将有机会用更真实、更细腻的声音打动用户。
空间音频,不再是“高端专属”,而是即将走入大众视野的“听觉革命”。