当前位置：首页 > news >正文

Visual acoustic Field，360+X论文解读

news 2025/9/7 20:27:43

一、Visual acoustic Field

1、概述

2、方法

2.1 视觉声音对数据集

2.2 视觉位置预测声音

2.3 根据声音进行空间定位

二、360+X

1、概述

2、方法

一、Visual acoustic Field

1、概述

motivation：由于视觉-声音跨模态问题上，音频一般与整张2D图像或视频配对，无法确定具体物体的声音，也同时缺乏对物体材质、空间位置与声音关联的3D建模。

下图为以往的视听数据信息，缺乏场景级，真实交互，3D建模数据。

contribution：提出了首个3D场景级视听数据集，场景多视角图像，带标记的敲击图像，敲击声音。统一框架实现对给定位置的声音生成，或者给定声音输出声源位置。 $I$

2、方法

2.1 视觉声音对数据集

数据采集

设备：只需手机录制多视角图像和敲击声音。

图像信息 $I$ ：视频抽帧300张图像，覆盖全视角，作为数据集。

敲击图像集 $I^h$ ：在物体表面贴标记点（贴纸），拍摄标记位置并同步录制敲击声

声音：统一用谱门限法去噪，并截取0.5s有效敲击音频，RMS归一化消除力度差异影响。

数据处理

为了防止单独对图像信息 $I$ 运行COLMAP导致坐标系不一致，所以将图像信息与敲击图像合并到一个集合并输入到COLMAP上，来估计所有相机位姿包括图像信息的和敲击图像集的位姿 $P,P^h$ 。（他这里实验证明，敲击图像集上有一些尺寸小的标记点，对COLMAP的位姿估计影响微乎其微）

利用OWL-v2来检测 $I^h$ 上的像素坐标 $(x_n^h,y_n^h)$ ，并通过3DGS预测标记点处深度 $d_n$ 。最后利用针孔相机模型计算相机坐标系下3D敲击坐标 $(i_n,j_n,k_n)$ 。

之后，为了在重建无标记的3D场景，所以只用图像信息I来重建，再用 $P^h$ 为视角，重新渲染纯净敲击图像集 $\underline{I^h}$ 。

最终数据集为多视角图像 $I$ ，纯净的重渲染无标记敲击图像 $\underline{I^h}$ ，敲击声音，3D敲击位置坐标。

数据集类别

15个场景，包括室内室外场景，并敲击了100多个物体，约2000个视听对。

2.2 视觉位置预测声音

这一部分流程是，3D坐标->定位一个可见敲击视角->feature3DGS渲染特征图->SAM多尺度分割特征图->audioclip对齐到声音特征上，作为条件信息->融合条件，生成相应的声音。

具体来说，（1）输入敲击点3D坐标，先通过计算3D坐标与每个数据集中光心的距离与夹角，筛选可见的视角，并有限选择重渲染后的敲击图像视角 $\underline{I^h}$ 。（2）用Feature 3DGS渲染该视角下的特征图。（3）根据特征图用SAM模型实现多层次的特征分割，得到三个尺度的掩码信息。（4）利用AudioCLiP视觉编码器映射为能够与音频对齐的特征向量。（5）将对齐的特征向量作为条件，融合到Stable Audio中来生成声音输出。

当然Stable Audio中没有这么多敲击声音，所以训练中对于以敲击声音为条件的数据集微调了250步。训练中用生成音频与GT音频的频谱损失作为监督。