当前位置：首页 > news >正文

【AI论文】EnerVerse-AC：用行动条件来构想具身环境

news 2025/10/22 16:20:09

摘要：机器人模仿学习已经从解决静态任务发展到解决动态交互场景，但由于需要与动态环境进行实时交互，测试和评估仍然成本高昂且具有挑战性。我们提出了EnerVerse-AC（EVAC），这是一种基于代理预测动作生成未来视觉观察的动作条件世界模型，可以实现逼真且可控的机器人推理。 EVAC在先前架构的基础上，引入了多级动作调节机制和光线图编码，用于动态多视图图像生成，同时扩展了具有不同故障轨迹的训练数据，以提高泛化能力。作为数据引擎和评估器，EVAC将人类收集的轨迹扩充到不同的数据集中，并为政策测试生成逼真的、动作条件下的视频观察，从而消除了对物理机器人或复杂模拟的需求。这种方法在保持机器人操作评估的高保真度的同时，显著降低了成本。广泛的实验验证了我们的方法的有效性。代码、检查点和数据集可以在Github上找到。Huggingface链接：Paper page，论文链接：2505.09723

研究背景和目的

研究背景

随着机器人技术的快速发展，机器人模仿学习（Robotic Imitation Learning）已成为解决复杂和多样化交互场景中机器人操作任务的关键技术。传统的机器人学习主要依赖于静态任务环境中的孤立解决方案，而现代机器人系统则需要在动态环境中进行实时交互，这对测试和评估机器人策略的性能提出了新的挑战。传统的评估方法通常需要在物理机器人上进行直接部署或创建大规模的3D仿真环境，这些方法不仅成本高昂、劳动密集，而且难以扩展到多样化的任务场景中。

近年来，利用视频生成模型作为世界模拟器的概念逐渐兴起，为机器人学习提供了一种新的途径。这些模型允许代理通过学习到的视觉动力学观察和交互动态世界，从而绕过了对显式物理模拟的需求。然而，现有的世界建模技术主要侧重于从语言指令生成视频或基于生成的视频预测动作，而未能充分模拟环境对代理动作的动态响应，这限制了它们作为真实世界模拟器的潜力。

研究目的

本研究旨在提出一种名为EnerVerse-AC（EVAC）的动作条件世界模型，以解决上述挑战。EVAC的目标是通过代理的预测动作直接生成未来的视觉观察，从而实现逼真且可控的机器人推理。具体而言，本研究旨在：

开发动作条件世界模型：构建一个能够基于代理动作生成未来视觉观察的世界模型，支持机器人操作任务的逼真模拟。
提高泛化能力：通过引入多样化的失败轨迹数据，扩展训练数据的覆盖范围，提高模型在多样化场景中的泛化能力。
降低测试成本：作为数据引擎和评估器，EVAC旨在减少对物理机器人或复杂仿真环境的需求，从而降低测试和评估的成本。
验证模型有效性：通过广泛的实验验证EVAC在机器人操作评估中的有效性和可靠性。

研究方法

模型架构

EVAC基于UNet的视频生成模型，并进行了以下关键改进：

多级动作条件注入：
- 空间感知姿态注入：将末端执行器的6D姿态信息转换为像素坐标，并通过视觉提示技术直观地表示姿态信息。这些姿态图经过CLIP视觉编码器处理后，与RGB图像的特征图沿通道维度连接。
- 增量动作注意力模块：计算连续帧之间的增量运动，以近似末端执行器位置和方向的变化。这些增量运动通过线性投影编码为固定数量的潜在表示，并通过交叉注意力机制与参考图像图融合，注入到UNet阶段。
多视图条件注入：
- 为了支持机器人操作任务中的多视图图像生成，EVAC扩展了基础模型以处理多视图特征。通过空间交叉注意力模块实现视图之间的交互，并引入光线方向图编码以提供空间上下文。
数据增强与评估：
- 数据引擎：EVAC作为数据引擎，通过分割动作、应用空间增强和生成新的视频序列，将有限的人类收集轨迹扩充为多样化的数据集。
- 评估器：作为评估器，EVAC生成逼真的动作条件视频观察，用于策略测试，消除了对物理机器人或复杂模拟的需求。

训练数据

EVAC的训练数据主要来源于AgiBot World数据集，该数据集包含超过210个任务和100万条轨迹。为了确保动作轨迹的全面覆盖，包括成功和失败案例，研究团队与AgiBot数据团队合作，获取了原始数据的完全访问权限，并从中挖掘了大量失败案例。此外，还开发了一个自动化数据收集管道，在遥操作和真实机器人推理期间捕获实时故障案例，进一步丰富了数据集。