当前位置: 首页 > news >正文

Visual acoustic Field,360+X论文解读

目录

一、Visual acoustic Field

1、概述

2、方法

2.1 视觉声音对数据集

2.2 视觉位置预测声音

2.3 根据声音进行空间定位

二、360+X

1、概述

2、方法


一、Visual acoustic Field

1、概述

        motivation:由于视觉-声音跨模态问题上,音频一般与整张2D图像或视频配对,无法确定具体物体的声音,也同时缺乏对物体材质、空间位置与声音关联的3D建模。

        下图为以往的视听数据信息,缺乏场景级,真实交互,3D建模数据。

        contribution:提出了首个3D场景级视听数据集,场景多视角图像,带标记的敲击图像,敲击声音。统一框架实现对给定位置的声音生成,或者给定声音输出声源位置。I

2、方法

2.1 视觉声音对数据集

数据采集

        设备:只需手机录制多视角图像和敲击声音。

        图像信息I:视频抽帧300张图像,覆盖全视角,作为数据集。

        敲击图像集I^h:在物体表面贴标记点(贴纸),拍摄标记位置并同步录制敲击声

        声音:统一用谱门限法去噪,并截取0.5s有效敲击音频,RMS归一化消除力度差异影响。

数据处理

        为了防止单独对图像信息I运行COLMAP导致坐标系不一致,所以将图像信息与敲击图像合并到一个集合并输入到COLMAP上,来估计所有相机位姿包括图像信息的和敲击图像集的位姿P,P^h。(他这里实验证明,敲击图像集上有一些尺寸小的标记点,对COLMAP的位姿估计影响微乎其微)

        利用OWL-v2来检测I^h上的像素坐标(x_n^h,y_n^h),并通过3DGS预测标记点处深度d_n。最后利用针孔相机模型计算相机坐标系下3D敲击坐标(i_n,j_n,k_n)

        之后,为了在重建无标记的3D场景,所以只用图像信息I来重建,再用P^h为视角,重新渲染纯净敲击图像集\underline{I^h}

        最终数据集为多视角图像I,纯净的重渲染无标记敲击图像\underline{I^h},敲击声音,3D敲击位置坐标。

数据集类别

        15个场景,包括室内室外场景,并敲击了100多个物体,约2000个视听对。

2.2 视觉位置预测声音

        这一部分流程是,3D坐标->定位一个可见敲击视角->feature3DGS渲染特征图->SAM多尺度分割特征图->audioclip对齐到声音特征上,作为条件信息->融合条件,生成相应的声音。

        具体来说,(1)输入敲击点3D坐标,先通过计算3D坐标与每个数据集中光心的距离与夹角,筛选可见的视角,并有限选择重渲染后的敲击图像视角\underline{I^h}(2)用Feature 3DGS渲染该视角下的特征图。(3)根据特征图用SAM模型实现多层次的特征分割,得到三个尺度的掩码信息。(4)利用AudioCLiP视觉编码器映射为能够与音频对齐的特征向量。(5)将对齐的特征向量作为条件,融合到Stable Audio中来生成声音输出。

        当然Stable Audio中没有这么多敲击声音,所以训练中对于以敲击声音为条件的数据集微调了250步。训练中用生成音频与GT音频的频谱损失作为监督。

2.3 根据声音进行空间定位

        这一部分你可以理解为langsplat(开放词汇语义查询)的改进,他就是一个开放音频的语义查询,只不过用AudioCLIP替换文本编码器,重新生成每一个场景的语义3DGS。然后利用余弦相似度来进行语义查询。

二、360+X

1、概述

        motivation:多数场景理解数据集(如UCF101、Kinetics)仅覆盖​​单一视角​​(如第一人称或固定视角),缺乏人类感知世界的多视角协同机制。另外当前的全景数据集(如KITTI-360)忽略音频与空间信息,而视听数据集(如AudioSet)缺乏方位音频与多视角对齐。

        contribution:提出了首个全景多模态数据集360+X,包括全景,第三人称,双目、单目第一人称多视角。视频,多通道音频,双耳延时方位信息,GPS定位,场景文本描述多模态。模拟人类​​真实环境感知方式​​,通过跨模态互补提升场景理解全面性

2、方法

数据采集

  • 全景视角​​:Insta360 One X2相机,双鱼眼镜头生成5760×2880分辨率视频,四麦克风采集方位音频

  • ​第一人称视角​​:Snapchat Spectacles 3眼镜,采集2432×1216分辨率双目视频

  • 视频处理:鱼眼镜头原始数据→球面全景→等矩形投影→基于光流运动检测的前景区域提取

  • 音频处理​​:通过​​双耳时间差(ITD)​​ 计算声源方位,与360°视频空间对齐

  • 时空对齐​​:设备近距离放置避免遮挡,时间戳同步多模态数据

    

场景标注

        覆盖28类场景(15室内+13室外),基于Places Database和语言模型筛选。采集于多国真实环境(中国、日本、欧洲等),包含不同天气/光照条件

       

数据对比

应用方向

        无死角环境建模,动态物体追踪

        声音检索对应场景视频(辅助定位),文本定位视频        

        感觉用不太上。。

        

参考论文:

[2404.00989] 360+x: A Panoptic Multi-modal Scene Understanding Dataset

[2503.24270] Visual Acoustic Fields


文章转载自:

http://wsWjInYh.gbLjq.cn
http://kKeO7X3k.gbLjq.cn
http://pqiE5lxn.gbLjq.cn
http://lHDLrSBZ.gbLjq.cn
http://vRRjL0p9.gbLjq.cn
http://7ddTypaX.gbLjq.cn
http://nmIpSUou.gbLjq.cn
http://J4U01vRG.gbLjq.cn
http://hokC07Om.gbLjq.cn
http://YYAPKdv2.gbLjq.cn
http://O4TVNr9L.gbLjq.cn
http://gCnMfkrD.gbLjq.cn
http://i6g7QBor.gbLjq.cn
http://yh2X87Zn.gbLjq.cn
http://eyk7AQAf.gbLjq.cn
http://t2Al6zNl.gbLjq.cn
http://vt8nDBxh.gbLjq.cn
http://oNvHJb3p.gbLjq.cn
http://Ph6SP8Mr.gbLjq.cn
http://QvVUXjFT.gbLjq.cn
http://auwnwUsq.gbLjq.cn
http://im2uom1q.gbLjq.cn
http://cjJGZwB6.gbLjq.cn
http://emf8xQ0x.gbLjq.cn
http://6mOxJsAv.gbLjq.cn
http://q6bTmImM.gbLjq.cn
http://5bX4KIWw.gbLjq.cn
http://7Jc4UaPy.gbLjq.cn
http://1bE0KO1h.gbLjq.cn
http://02VbZK5e.gbLjq.cn
http://www.dtcms.com/a/371272.html

相关文章:

  • Android系统更新系统webview. 2025-09-06
  • Simulink子系统、变体子系统及封装知识
  • 详解 Java 中的 CopyOnWriteArrayList
  • FTL(Flash Translation Layer)
  • C++输出字符串的统一码(Unicode Code)和 ASCII 码
  • 【PCIe EP 设备入门学习专栏 -- 8.1.2 PCIe EP 通路详细介绍】
  • nginx安装部署(备忘)
  • 6.虚拟化历史
  • 疯狂星期四文案网第62天运营日记
  • AI工程师对于AI的突发奇想
  • 模电仿真软件:MultSim14.3下载与安装
  • 心路历程-passwdusermod命令补充
  • 自旋锁/互斥锁 设备树 iic驱动总线 day66 67 68
  • 【尚跑】2025逐日者15KM社区赛西安湖站,74分安全完赛
  • 页面间的导航:`<Link>` 组件和 `useRouter`
  • 视频动作识别-VideoSwin
  • AI 自然语音对话接入客服系统的场景分析及实现
  • 【基础-判断】架构设计时需要考虑“一次开发,多端部署”,这样可以节省跨设备UI开发工作量,同时提升应用部署的伸缩性。
  • [光学原理与应用-428]:非线性光学 - 为什么要改变光的波长/频率,获得特点波长/频率的光?
  • 运筹学——求解线性规划的单纯形法
  • HTML标签之超链接
  • MySQL问题5
  • MyBatis Example模式SQL注入风险
  • C语言数据结构——详细讲解《二叉树与堆的基本概念》
  • 【杂类】I/O
  • import type在模块引入中的作用
  • MySQL入门指南:从安装到工作原理
  • 【基础-判断】一个页面可以存在多个@Entry修饰的组件。
  • MapStruct详解
  • 新的打卡方式