当前位置: 首页 > news >正文

⭐CVPR2025 无约束 3D 视线估计新框架[特殊字符]

⭐CVPR 顶会精读|无约束 3D 视线估计新框架 GA3CE

📄论文题目:GA3CE: Unconstrained 3D Gaze Estimation with Gaze-Aware 3D Context Encoding

✍️作者及机构:Yuki Kawana、Shintaro Shiba、Quan Kong、Norimasa Kobori(Woven by Toyota)

🧩面临问题:无约束场景下 3D 视线估计存在诸多挑战。一方面,受试者可能距离较远或背对镜头,导致眼睛特写不可得;另一方面,相机姿态变化会使相同 3D 场景的 2D 外观和 3D 视线方向产生差异,而传统方法要么依赖 2D 外观,要么仅在非学习型后处理中融入有限空间线索,忽略了受试者、场景与视线方向间的空间关系134。

在这里插入图片描述

🎯创新点及其具体研究方法:

1️⃣ 提出基于 3D 空间关系理解的新方法:以 3D 姿态和物体位置作为中间表示,替代直接从 2D 外观估计 3D 视线方向,通过建模受试者与场景物体的空间关系实现估计25。

2️⃣ 提出 Gaze-Aware 3D Context Encoding(GA3CE):- egocentric transformation:将 3D 姿态和物体位置归一化到以受试者为中心的坐标空间,通过旋转使受试者视线方向与固定方向对齐,减少相机姿态带来的变化,还引入 cyclotorsion rotation 提升变换一致性789。- D³ positional encoding:将 3D 点分解为方向和距离组件,采用正弦函数分别编码后拼接,更好捕捉空间关系中方向和距离的相关性1011。

3️⃣ 设计 3D gaze transformer:编码器处理物体嵌入生成物体特征,解码器以受试者嵌入为查询,通过交叉注意力聚焦相关物体特征,学习空间关系并输出视线方向,最后反转归一化得到最终结果121314。

4️⃣ 在三个基准数据集上验证:在 GFIE、CAD-120 和 GAFA 数据集上进行实验,相比主流基线方法,将平均角度误差降低 13%-37%,展示了方法在不同场景下的有效性和泛化能力615🔷1-94🔷🔷1-98🔷。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

http://www.dtcms.com/a/343738.html

相关文章:

  • 【图像算法 - 21】慧眼识虫:基于深度学习与OpenCV的农田害虫智能识别系统
  • Python opencv识别图片中重叠圆的圆心位置
  • 焊接工艺仿真软件SYSWELD、Simufact.Welding和FLOW-3D WELD的区别
  • 【0基础3ds Max】捕捉工具详解
  • 城市生命线地下管网三维建模软件MagicPipe3D更新历史
  • ZBrush和3D-Coat如何实现快速桥接?
  • `git mv` 重命名 Git 仓库中的文件夹
  • OFSP路由与传输层协议
  • LLM实践系列:利用LLM重构数据科学流程
  • 亚矩阵云手机:亚马逊第三方店铺多账号安全合规运营的核心技术支撑
  • 代码随想录Day59:图论(最短路算法dijkstra堆优化版精讲、Bellman_ford 算法精讲)
  • 【生成树+环】题解:P3907 环的异或_图论_环_异或_搜索_算法竞赛_C++
  • 【typenum】 22 类型级别二进制对数运算(Logarithm2)
  • Apache Ozone 介绍与部署使用(最新版2.0.0)
  • Vue2+Vue3前端开发_Day6
  • Spring-AI初级使用记录 spring-ai-bom版本1.0.1-(单、多轮对话)
  • reactive 核心要点
  • FFmpeg及 RTSP、RTMP
  • 大型前端项目如何实现css 隔离:利用浏览器原生的 Shadow DOM 完全隔离 DOM 结构与样式...
  • 前端AI工具——TRAE
  • Linux基础命令大全:从入门到熟练
  • 开发避坑指南(34):mysql深度分页查询优化方案
  • GitCode 疑难问题诊疗:全面指南与解决方案
  • 关于在 IntelliJ IDEA 中安装和配置 Java 17
  • 简单聊聊多模态大语言模型MLLM
  • RabbitMQ 应用问题
  • RabbitMQ深度剖析:从基础到高级进阶实战
  • RabbitMQ 全面指南:架构解析与案例实战
  • 线性回归学习笔记
  • k8s——持久化存储 PVC