当前位置：首页 > wzjs >正文

政府网站html源码长沙关键词优化新行情报价

wzjs 2025/7/30 11:44:03

政府网站html源码,长沙关键词优化新行情报价,上海代办营业执照的正规公司,注册网站卖东西Aether 是一个的世界模型，整合几何重建与生成建模的统一框架，实现类人空间推理能力。来自ICCV 2025，该框架具有三大核心功能： (1) 4D动态重建，(2) 动作条件视频预测， (3) 目标条件视觉规划。代码地址&…

Aether 是一个的世界模型，整合几何重建与生成建模的统一框架，实现类人空间推理能力。

来自ICCV 2025，该框架具有三大核心功能：

(1) 4D动态重建，(2) 动作条件视频预测， (3) 目标条件视觉规划。

代码地址：https://github.com/OpenRobotLab/Aether

论文地址：Aether: Geometric-Aware Unified World Modeling

论文复现：参考我这篇博客

下面是一个动作条件预测的示例：

1、核心能力：三位一体的世界建模

Aether核心价值在于将传统上独立的三个计算机视觉任务统一到单一框架中，形成闭环的空间推理能力：

4D 动态重建

从视频序列中同时估计深度和相机姿态，还原场景的时空动态（3D 空间 + 时间维度）。
例如，对一段运动视频，AETHER 可输出每帧的深度图和相机运动轨迹，构建完整的 4D场景结构。

动作条件视频预测

基于初始观测图像和相机轨迹（作为动作输入），预测未来的视频序列。
在导航任务中，相机轨迹直接对应路径，模型可据此生成沿路径移动的未来视图；
在机器人操作中，可预测机械臂末端相机运动带来的视觉变化。

目标条件视觉规划

给定初始观测图像和目标图像，规划出从初始状态到目标状态的动作序列，并生成对应的中间视频。
例如，从办公室入口图像到会议室图像，模型可规划出最优移动路径并生成沿途视图。

2、模型框架

看一下Aether模型框架，说实话这个图有点不直观：

如下图所示，是 AETHER 多任务世界模型的流程，核心围绕4D 重建、视频预测、视觉规划三大任务，通过多模态隐变量（latent）的处理与交互实现功能。

先验注入：4D 重建为模型提供几何先验（深度、相机轨迹），让模型 “理解空间结构”
任务分化：根据 “是否有动作指令”“是否有目标状态”，分化出视频预测（侧重未来生成）和视觉规划（侧重路径推导）
隐变量交互：Image/Action/Depth隐变量在不同任务中灵活组合，通过 “输入缺失部分→模型预测补全” 的方式，实现多任务适配

用统一的隐空间框架，让模型同时具备 “理解过去（4D 重建）、预测未来（视频预测）、规划路径（视觉规划）” 的能力，模拟类人空间推理逻辑。

Aether本质是一个：多模态融合的扩散模型框架

基于主流“视频扩散模型”构建，保留其 “前向加噪 - 反向去噪” 的核心机制，同时扩展为多模态融合的结构：

前向过程：向干净的 latent 样本（包含颜色、深度、动作信息）逐步添加高斯噪声；
反向过程：通过学习的去噪模型，从含噪 latent 中恢复原始信息，目标是最小化预测噪声与真实噪声的差异。
条件控制：颜色视频条件、动作条件，通过不同的条件组合实现多任务切换。
重建任务：输入视频 latent，模型从完整视频中恢复深度和相机轨迹；
视频预测：输入初始观测帧的 latent，其余帧用零掩码，可额外输入相机轨迹作为动作条件；
目标条件视觉规划：输入初始和目标图像，中间用零填充，模型生成从初始到目标的路径视频。

3、4D 动态重建

4D 动态重建的思路流程，如下图所示：

通过 “1、输入RGB-D视频→ 2、动态掩码→ 3、视频切片→ 4、相机参数粗估 + 5、精修→ 6、点云融合” 的步骤，实现对场景的3D重建与相机运动估计。

本质是 “从 2D 观测恢复 3D 结构” 的经典计算机视觉任务，结合了动态掩码的智能过滤与两阶段相机参数优化，提升重建精度与效率。

Dynamic Masking（动态掩码处理）

作用：对输入的 RGB - D 视频施加动态掩码，保留关键区域（如人物、前景物体），屏蔽背景或干扰信息，为后续处理聚焦有效内容。

相机参数估计：粗估→精修的两阶段优化

首先：Coarse Camera Estimation（相机参数粗估）
输入：视频切片 + 深度信息（来自 RGB - D 视频）。
逻辑：基于切片的视觉与深度数据，初步计算相机的内外参数（如位置、姿态、焦距等），得到 “粗相机参数”。
特点：速度快，但精度有限，为后续精修提供初始值。
然后：Camera Refinement（相机参数精修）
输入：粗相机参数 + 切片的详细视觉信息。
逻辑：结合更精细的图像特征（如边缘、纹理），对粗估参数进行优化，得到 “精修相机参数”。
作用：提升相机参数精度，确保 3D 重建的空间一致性。

4、视频预测与视觉规划

Video Prediction（视频预测）

目标：给定 “初始观测”（或 + 动作指令），生成符合物理规律的未来视频，验证模型 “预判动态演化” 的能力。
子任务：
- Action Free（无动作条件）：仅用首帧图像，自主预测后续帧；
- Action Conditioned（有动作条件）：结合首帧 + 动作指令（如相机轨迹），约束生成过程。

Visual Planning（视觉规划）

目标：给定 “初始状态” 和 “目标状态”，生成合理的中间过渡视频，验证模型 “推导空间路径” 的能力。
子任务：
- Action Free（无动作条件）：仅用初始 / 目标图像，自主规划路径；
- Action Conditioned（有动作条件）：结合初始 / 目标图像 + 动作指令，约束规划过程。

输入处理（下面的latent是指Aether模型框架中一个一个格子，）

模态编码：
- 图像：用预训练 VAE 编码为Image latent（黄色）；
- 动作：相机轨迹转射线图后编码为Action latent（蓝色）；
- 目标：目标图像编码为Image latent（黄色，用于规划任务）。
掩码策略：
- 视频预测（Action Free）：仅保留首帧Image latent，后续帧用Zero - padding（白色）；
- 视觉规划（Action Free）：保留首帧 + 目标帧Image latent，中间帧用Zero - padding（白色）；
- 带动作条件任务：额外拼接Action latent，约束生成方向。

模型推理

扩散去噪：基于 DiT 框架，模型学习从 “含噪 latent” 反向去噪，生成Image prediction（浅黄色）和Action prediction（浅蓝色，如有动作条件）；
多模态融合：深度预测（红色）与图像、动作隐变量协同，确保生成内容的几何合理性（如深度一致、运动符合物理规律）。

输出解码