当前位置：首页 > news >正文

论文笔记（九十七）PhysiAgent: An Embodied Agent Framework in Physical World

news 2025/11/1 13:05:39

PhysiAgent: An Embodied Agent Framework in Physical World

文章概括
Abstract
1. Introduction
2. Preliminary
3. 自主具身智能体框架 Autonomous Embodied Agent Framework
- 3.1 PhysiAgent概述
- 3.2 通过 Monitor 、 Reflection 与 Memory 增强 Grounding
4. Experiments
- 4.1. Experimental Setup
- 4.2. Main Results
5. Related Works
6. 结论
A. 限制
B. 详细流程示意
C. 真实世界桌面操作数据集
D. 已实现的视觉-语言-动作模型细节

文章概括

引用：

@article{sun2025latent,title={Latent policy barrier: Learning robust visuomotor policies by staying in-distribution},author={Sun, Zhanyi and Song, Shuran},journal={arXiv preprint arXiv:2508.05941},year={2025}
}

Sun, Z. and Song, S., 2025. Latent policy barrier: Learning robust visuomotor policies by staying in-distribution. arXiv preprint arXiv:2508.05941.

主页：
原文： https://arxiv.org/abs/2508.05941
代码、数据和视频：

系列文章：
请在 $《$ 文章 $》$ 专栏中查找

宇宙声明！

引用解析部分属于自我理解补充，如有错误可以评论讨论然后改正！

Abstract

视觉-语言-动作（VLA）模型已经取得了显著成功，但在泛化能力方面仍常常受限。为了解决这一问题，将通用的视觉-语言模型（VLM）作为VLA的助手进行集成，已成为一种流行的方案。然而，现有方法常以僵硬的串行结构组合这些模型：主要用VLM进行高层次的场景理解与任务规划，而让VLA只执行低层动作，导致协作效率低下与落地（grounding）效果不佳。本文提出一个具身智能体框架——PhysiAgent，旨在在真实物理环境中高效运行。通过引入监控、记忆、自我反思机制以及轻量的现成工具箱，PhysiAgent 提供一种自主演化的“脚手架”式框架：依据来自VLA的实时熟练度反馈，引导VLM动态组织各组件，从而最大化发挥VLA的能力。实验结果表明，在复杂的真实机器人任务上，该方法显著提升了解题性能，体现为VLM的有效自我调节、工具间的连贯协作，以及框架在执行过程中的自适应演化。PhysiAgent 在整合VLM与VLA方面做出了务实而开创性的探索，有效推动了具身智能体框架在真实世界中的落地。

1. Introduction

近期在视觉-语言-动作（VLA）模型方面的进展，已经在多种应用中展现出令人瞩目的成果，例如真实世界的桌面操作（Kim et al., 2024; Zheng et al., 2025; Chi et al., 2024; Black et al., 2024）、语言引导的导航（Zhang et al., 2024b;c）以及人机交互（Shi et al., 2024; 2025; Intelligence et al., 2025）。这些模型通常建立在大规模、高质量的标注数据集之上，并采用端到端范式进行训练（Black et al., 2024; Intelligence et al., 2025）。尽管在多种应用中潜力巨大，VLA 模型往往难以泛化到未见过的场景、任务与具身形态（Chen et al., 2024），从而阻碍了其在实际中的部署。鉴于数据采集成本高昂且随着数据量增加模型性能呈现边际收益递减，单纯扩大数据与模型规模并不能有效解决泛化难题（Lin et al., 2024）。

为了解决这一问题，研究者开始转向利用强大的视觉-语言模型（VLM）。这些模型所蕴含的大量常识性知识，使其能够加强视觉推理、任务分解以及对本体感知的理解（Hurst et al., 2024）。然而，现有方法常常仅把 VLM 当作高层规划器，并通过僵硬、割裂的语言接口进行连接，导致语义落地（grounding）不足（Ahn et al., 2022; Huang et al., 2022b）。尽管近期的一种趋势是通过联合训练将 VLM 与 VLA 统一为单一的具身基础模型，但其巨大的数据需求以及微调后对通用知识产生灾难性遗忘的风险，限制了这类方法的可扩展性与潜力（Zheng et al., 2025; Black et al., 2024; Reuss et al., 2025）。

与具身智能社区在僵化的模型集成上所遭遇的困境相反，大语言模型（LLM）Agent 社区在模块化协作方面展现出了显著成功。通过精心设计的“脚手架”，LLM 代理将多个专门化组件整合起来，展现出超越单个模型能力的行为。这些各司其职的组件在高层规则的引导下自主交互，形成有机的协作行为，并在游戏（Wang et al., 2023a;b; 2024b; Qin et al., 2024）、人类行为仿真（Yang et al., 2024; Park et al., 2023）以及疾病诊断（Li et al., 2024a）等虚拟任务中取得了亮眼表现。尽管 LLM 代理在虚拟环境中已获得成功，但将这种代理式的模块化协同应用到现实世界的物理系统，其潜力仍基本未被充分探索。

本文提出 PhysiAgent——一种全新的、无需训练的具身智能体框架，旨在实现 VLM 与 VLA 在物理世界中的无缝集成与部署，以应对长期存在的泛化难题。PhysiAgent 的核心是一个统一、全自动的“脚手架”，将整个具身系统视作一个内聚的智能体，能够在内部各组件之间进行自我调节与动态适应。与传统那种僵化、前馈式层级架构不同，PhysiAgent 引入了代理记忆、监控以及自我反思机制，构建起一个自适应反馈回路，以促进任意 VLM 与 VLA 之间更深入的语义落地与协同。具体而言，VLM 会通过持续的自主交互，不断学习 VLA 在不同指令与技能上的熟练度，从而无需人工介入即可自适应地优化策略。为进一步提升系统的语义落地推理与精确控制能力，PhysiAgent 在 VLM 与 VLA 之外集成了“思考、感知与控制”的辅助模块。这些组件以轻量的规则程序或经过良好训练的神经模型实现，可按需调用且计算开销极低。包括 VLM、VLA 与各类辅助机制在内的所有模块，均由自动化脚手架在异步执行范式下进行编排，从而实现并发运行与流畅交互。该框架与 VLM 的持续演进天然契合，使其能够进行自主推理、自我反思与交互，从而释放 VLA 与辅助模块的全部潜能，并最终在真实环境中实现更好的泛化与性能。

为评估框架有效性，我们在真实的桌面操作场景中开展了实验，使用单臂机器人作为主要的物理交互平台。我们将现成的 VLM 与 VLA 无缝集成到所提脚手架中，并驱动其完成多种操作任务。值得注意的是，PhysiAgent 在部署过程中展现了代理式行为，例如在任务执行全过程中的自我反思与自适应演化。这些涌现能力并非源自某一个单独模块，而是来自内部组件之间的动态交互与反馈。从量化结果看，我们的框架在保持可接受的运行频率的同时，显著提高了任务成功率，凸显了该方法的实用优势与鲁棒性。

总之，我们的贡献有三点：1）提出了 PhysiAgent，这一无需训练的模块化具身智能体框架，可灵活集成 VLM 与 VLA 并落地到真实世界；2）首次将传统在语言/仿真领域探索的代理范式引入物理世界，使 VLM 具备真实感知与工具使用能力；3）在真实机器人操作任务中验证了框架有效性，展示了涌现的自我反思能力及显著的性能提升。

2. Preliminary

数学形式与概念框架，即：输入 → 感知（observation）→ 理解（language grounding）→ 输出控制信号（action）。

层次关系与区别：

方法类型核心思想优点局限
基础版 VLA（Vision-Language-Action） 把感知 + 理解 + 控制都塞进一个大网络里端到端学结构简单泛化差、需要大量数据
层级式方法（Hierarchical Methods） 在中间加入抽象变量 $z_t$ （比如子任务、目标等）实现“高层决策 + 低层控制” 模块化、可解释性强 $z_t$ 定义粗糙，层间协同差
智能体系统（Agent Systems） 让多个组件（VLM、Planner、Controller）在一个闭环内动态交互，像人一样规划、反思、调整行为更接近“主动理解与自适应行为” 实现复杂、落地难（特别是物理世界）

方法类型	核心思想	优点	局限
基础版 VLA（Vision-Language-Action）	把感知 + 理解 + 控制都塞进一个大网络里端到端学	结构简单	泛化差、需要大量数据
层级式方法（Hierarchical Methods）	在中间加入抽象变量 $z_t$ （比如子任务、目标等）实现“高层决策 + 低层控制”	模块化、可解释性强	$z_t$ 定义粗糙，层间协同差
智能体系统（Agent Systems）	让多个组件（VLM、Planner、Controller）在一个闭环内动态交互，像人一样规划、反思、调整行为	更接近“主动理解与自适应行为”	实现复杂、落地难（特别是物理世界）

具身智能（Embodied AI）的目标是开发能够遵循任意人类指令并与物理世界交互以完成任务的模型。我们将语言指令空间记为 $L\mathcal{L}$ ，观测空间记为 $O\mathcal{O}$ ，控制信号空间记为 $U\mathcal{U}$ 。给定指令 $\in \mathcal{L}$ 和截至时间步 $t$ 的观测历史序列 $o≤t⊂Oo_{\le t} \subset \mathcal{O}$ ，具身智能模型 $f$ 的目标是产生控制信号 $ut⊂Uu_t \subset \mathcal{U}$ ，以完成由 $l$ 描述的任务。训练后的模型 $f$ 可表述为：

$ut=f(o≤t,l).u_t = f(o_{\le t}, l).$

基础版视觉-语言-行动（VLA）模型通常用统一的神经策略实现 $f$ ，记作 $πθ(ut∣o≤t,l)\pi_\theta(u_t \mid o_{\le t}, l)$ ，其中 $θ\theta$ 表示可训练参数。仅凭端到端的示范学习来训练该策略，对标注数据需求巨大，且在不同任务与不同体型/平台（embodiments）之间泛化困难。

层级方法通过引入中间变量 $z$ 来扩展上述表述， $z$ 充当抽象表示，用于衔接高层指令与低层控制。在该框架下，策略被分解为：

$πθ,ϕ(ut∣o≤t,l)=πθ(ut∣o≤t,zt)⋅πϕ(zt∣o≤t,l),\pi_{\theta,\phi}(u_t \mid o_{\le t}, l) = \pi_\theta(u_t \mid o_{\le t}, z_t) \cdot \pi_\phi(z_t \mid o_{\le t}, l),$

其中 $πϕ\pi_\phi$ 表示高层视觉-语言模型（VLM），而 $z_t$ 可能对应文本或视觉的子目标，或编码任务相关意图的潜在表示。尽管这种结构带来有效的模块化，但 $z_t$ 常被生硬地定义或缺乏显式约束地学习，导致两级子策略之间的协同较弱，并在复杂环境中鲁棒性受限。

🔍 拆开解释：

$πϕ(zt∣o≤t,l)\pi_\phi(z_t \mid o_{\le t}, l)$ ：高层策略，负责理解任务指令并决定子目标；
$πθ(ut∣o≤t,zt)\pi_\theta(u_t \mid o_{\le t}, z_t)$ ：低层策略，负责根据子目标执行具体动作；
$z_t$ ：中间变量，可以是
子目标（例如“找到门”）
抽象意图（例如“开门动作”）
或者隐式潜变量（latent embedding）。

📦 举例：

比如“做饭” → 高层 $z_t$ = “切菜”“煮饭”“装盘” → 低层每个子任务再去控制机械臂。

🧩 优点：

模块化；高层语义与低层控制分开；
可解释性好（z_t 让人知道机器人在“想干什么”）。

📉 局限：

$z_t$ 通常是手工定义的（太“死”）；
或者自动学习的（太“黑箱”），缺乏明确约束；
结果是上下层之间协同不稳定；
一旦环境复杂或指令模糊，就容易失效。

智能体系统旨在通过将复杂的语义落地任务分解为若干子任务，并借助精心构建的脚手架来编排其执行，从而完成求解。不同于依赖于简单定义的中间变量 $z_t$ 的层级式具身方法，智能体系统通常在闭环架构内实现信息交换，从而在各组件之间支持自我反思与自适应行为。然而，构建能够在物理世界中高效运行的智能体系统依然并非易事，因为这要求具备高强度的三维自我中心（第一人称）推理能力以及稳健的物理落地能力。

📦 直观类比：

层级式方法：像一个固定的指令树——高层发命令，低层照做；
智能体系统：像一个会自己想、自己检查、自己改进的智能管家，每完成一步都会评估是否正确、是否需要修正。

人类指令 (l)│▼
感知历史 (o≤t) ──► 具身智能模型 f ──► 控制信号 (u_t)│├── 基础 VLA：端到端网络 f│├── 层级 VLA：引入中间变量 z_t│       ├── π_φ(z_t | o≤t, l) → 高层子任务规划│       └── π_θ(u_t | o≤t, z_t) → 低层动作执行│└── 智能体系统：闭环架构├── 动态分解子任务├── 模块间自反交流└── 自适应执行与修正

在这里插入图片描述图1。（a）基础版 VLA 方法、（b）分层式具身智能方法、（c）基于智能体的方法的对比。与基础版 VLA 和分层式方法不同，基于智能体的方法能够在 VLM 与 VLA 之间实现连贯且动态的交互。

3. 自主具身智能体框架 Autonomous Embodied Agent Framework

为解决现有方法中 VLM 与 VLA 交互僵化的局限，我们提出了 PhysiAgent。 PhysiAgent 的核心是一种自主脚手架机制，将 VLM 与 VLA 整合为统一的智能体系统，使 VLM 能够依据 VLA 的熟练度动态选择与使用不同工具，从而充分释放 VLA 的执行能力。我们在第3.1节给出 PhysiAgent 的总体概述，并在第3.2节详细说明其作为智能体系统的核心组件以及在真实场景部署时的关键考量。

传统层级式做法：VLM 读任务 → 产出中间目标 $z_t$ → 交给 VLA 执行（单向前馈）。
问题： $z_t$ 往往不贴合底层 VLA 的真实“本领”，导致执行差、难纠错、难适配新环境。

PhysiAgent：把 VLM 放进一个闭环智能体里，既能向下发指令，又能读取 VLA 的执行反馈，借助监控、反思、记忆与工具箱迭代修正计划，让指令逐步“贴合”VLA 的熟练度与当前场景。

3.1 PhysiAgent概述

如第2节所述，分层方法因对 VLM 与 VLA 的集成过于简单而存在局限。这类方法依赖中间子目标或潜在变量（ $z_t$ ），使得从指令到动作执行形成线性、前馈式流程。由于 VLM 未能充分考虑 VLA 的具体执行能力，这种做法常导致中间表征（ $z_t$ ）语义落地不足或对 VLA 优化不佳。为克服这些局限，PhysiAgent 借鉴智能体在增强多组件协作方面的显著成功（Wang et al., 2023a;b; 2024b; Qin et al., 2024），集成了监控、自我反思与记忆等组件。这些组件通过基于执行反馈对中间表征进行迭代优化，促使 VLM 动态理解并适应 VLA 的熟练度（如图2所示）。

在这里插入图片描述图2。PhysiAgent在执行给定任务时的工作流程。Planner将高层任务请求转换为可执行的语言指令，供底层VLA执行。同时，Monitor 在VLA按照这些指令执行的过程中持续跟踪其进度。并行地，Reflector会评估Monitor的输出，并生成视觉约束以修正可能的误判。这些反思结果能够揭示VLA的熟练程度，并作为下一轮任务分解时Planner可利用的宝贵上下文。为支持持续自适应，系统维护Short Memory与Long Memory，分别记录步骤级与回合级的执行数据；后续通过记忆检索为未来的规划与反思提供依据。此外，Embodied Toolbox提供感知、控制与推理等工具，使智能体系统能够观察物理世界、指挥机器人或寻求人类协助，作为高效的运行时助手以增强系统的鲁棒性与适应性。

1) Planner（计划器）

输入：当前观测 $o_t$ 、历史已分解的子目标 $l_{j<i}$ 、原始任务 $l$
输出：下一条可执行子指令 $l_i$ $Planner:li=Fp(ot,lj<i,l)\text{Planner}: \quad l_i = F_p(o_t, l_{j<i}, l)$
作用：把“做早餐”这类高层目标拆成可由 VLA 执行的低层自然语言子命令（如“打开烤箱门”“取出鸡蛋”）。
与传统不同：它不是一次性把任务分解完，而是轮次式分解，每轮会用到下述模块给的反馈/记忆，动态调整后续 $l_i$ 。

2) VLA Execution（底层执行器）

由现成的视觉-语言-动作模型执行 Planner 的子指令 $l_i$ ，生成动作，作用在机器人/环境上。
输出：动作轨迹以及实际观测序列（ $ot−h→oto_{t-h} \to o_t$ ）。这些回放（rollouts）将提供给 Monitor/Reflector 进行判断。

3) Monitor（监控器）

输入：执行前后观测（ $ot−h→oto_{t-h} \to o_t$ ）+ 可能的视觉约束（见下条 Reflector）。
输出：对当前子任务的进度判断/状态标签（DONE/FAIL/HINDER 等）和关键事件。
作用：像“裁判”，持续跟踪“子任务是否在按预期推进”。例：判断烤箱门是否已从闭合→开启；抓取是否成功。

4) Reflector（反思器）

输入：Monitor 的判断 + 当前/历史观测 + 短期记忆
输出：对 Monitor 的二次核验结论，以及新的视觉约束 $cnewc_{\text{new}}$ （告诉 Monitor“该看哪里/看什么”）。
作用：避免 Monitor 误判。例如：光照变化让 Monitor 把“好转移”当“坏转移”，Reflector 通过回看上下文、理解失败模式，产生更精确的判据（如“关注门把手区域的角点位移而不是阴影变化”）。
与 Monitor 的关系：双向耦合。Reflector 生成的视觉约束送回 Monitor，Monitor 的输出也会被 Reflector 再审。

5) Memory（记忆）

Short Memory（短期）：步级证据，记录最近若干步转移与判据（如“这次位姿变化是好的，但 Monitor 误判为坏”）。 → 供 Reflector/Planner 立刻检索，快速矫正本轮策略。
Long Memory（长期）：回合级摘要，记录“VLA 在哪些任务上强/弱、常见失败链条”。 → 供 Planner 在下轮分解时预判 VLA 熟练度，比如“VLA 擅长平移抓取但旋转门把手常失败”，于是 Planner 先调用“重定位/回溯工具”再下发抓取。

6) Embodied Toolbox（具身工具箱）

感知类：切换相机视角、主动靠近以获得更好观测、放大检测区域等。
控制类：让机器人回溯(retrace) 到上一步可行状态，或执行额外的安全检查动作。
推理/交互类：向人求助、调用额外推理函数（几何估计、轨迹重算等）。
作用：在真实物理世界里，单纯靠“说”不够，Agent 需要可调用的具体工具来修改观测条件或恢复局面，从而提高鲁棒性。

具体而言，PhysiAgent 由五个关键组件构成：Planner、Monitor、Reflector、Memory 与 Toolbox。Planner的主要功能是将原始语言指令（ $l$ ）分解为适合 VLA 执行的可操作中间指令（ $l_i$ ）。

$Planner:li=Fp(ot,lj<i,l)(1)\text{Planner} : l_i=F_p(o_t,l_{j<i},l) \quad (1)$

为使系统能针对 VLA 的实时能力做出动态响应，我们引入 Monitor，它持续跟踪 VLA 的执行进度 $P\mathcal{P}$ 。鉴于 Monitor 可能因 VLM 的内在局限而偶尔产生不准确评估，我们加入了 Reflector。 Reflector 作为验证层以提升监测准确性。此外，Memory 组件将智能体的整体交互历史记录为 $M$ ，为 Reflector 与 Planner 提供相关上下文，以增强其推理能力并理解 VLA 的熟练度。最后，为确保适用于真实物理系统，我们引入了易于实现但功能强大的 Toolbox，提供多种实用工具以提升整体系统性能。

因此，PhysiAgent 中的信息流是双向的：既有从 VLM 到 VLA 的前向流，也有由 VLA 行为回流至 VLM 的后向流，使 VLM 能够依据实时反馈调整其输出。接下来，我们将详细阐述所引入的 Monitor、Reflector、Memory 与 Toolbox 的具体细节，以及在物理世界部署系统时的相关考量。

信息如何在系统里流动？（闭环）

Planner 读入当前状态与记忆 → 产出下一条子指令 $l_i$ 。
VLA 执行 $l_i$ → 产生动作与新观测。
Monitor 读取观测转移，按当前视觉约束判断本子任务进展（DONE/FAIL/HINDER）。
Reflector 对 Monitor 的判断进行复核，若发现误判或信息不足 → 产出新的视觉约束 $cnewc_{\text{new}}$ ，回灌给 Monitor；同时把这次经验写进 Short/Long Memory。
Planner 下一轮分解前，会检索 Memory 与 Monitor/Reflector 反馈，动态调整后续 $l_{i+1}$ ，必要时调 Toolbox（如“先回溯到上个可行位姿，再尝试开门”）。
循环往复，直到任务完成或放弃。

这就是从 VLM → VLA 的前行流与从 VLA 执行 → VLM 的回流共同组成的闭环。

与“层级式”方法的关键差异

不再把中间变量 $z_t$ 固定为一次性规划的“静态子目标”；
而是让 Monitor/Reflector/Memory 把“执行反馈”持续写回，驱动 Planner 改写后续子指令；
Planner 还能依据 Long Memory 形成对 VLA 熟练度画像（proficiency），在新任务中预先规避薄弱点。

“视觉约束”到底是啥？

一组让 Monitor **“该看哪里/看什么”**的提示/条件：

关注对象（门把手/抽屉前缘/开关位置）； * 关注关系（角点位移、开口宽度、遮挡消退、颜色连贯）； *
关注时域（连续几帧的变化趋势）。

来源：Reflector 依据误判成因自动生成，能定制化地提升 Monitor 的判别质量。

一个“做早餐”的微型例子

Planner：把“Make a breakfast”分成“开炉门→取锅→点火→打蛋→煎蛋→装盘”。
VLA 执行“开炉门”，Monitor 判断“已打开？”
Reflector 发现 Monitor 被反光误导，生成视觉约束“只看门把手角点位移 + 门缝宽度”。
Memory 记录：“开门时应关注 A,B 两个区域；VLA 对‘旋转式把手’成功率低”。
Planner 下一轮：先调用 Toolbox“Retrace 到把手正前方 + 换个视角”，再下发“轻旋+拉开”。
周而复始，直至完成。

落地/实现要点（工程视角）

模块解耦：Planner/Monitor/Reflector 可由同一或不同 VLM 实例实现，但要固定接口（指令、约束、标签、记忆检索）。
记忆检索：短期用最近窗口（如几十步）直接索引；长期用向量数据库+摘要。
视觉约束落地：以文本提示 + ROI/Mask/规则的形式传给 Monitor 的视觉模型。
Toolbox：优先实现低风险、高收益的几个（换视角、回溯、低速扫描、人类求助）。
失败安全：任何时刻 FAIL/HINDER 触发“安全动作 + 状态快照 + 记忆写入”。

3.2 通过 Monitor 、 Reflection 与 Memory 增强 Grounding

现有的智能体框架在数字世界中运行良好，但我们发现将其直接应用到真实世界的机器人平台上效果仍然远未理想。造成这一巨大差距的关键在于视觉—语言的语义落地（grounding）难题。大多数现有智能体纯粹在基于文本的环境中运行（Wang et al., 2024a; Xi et al., 2025），因此不存在落地问题。尽管也有一些框架纳入了视觉信息（Qin et al., 2024; Nguyen et al., 2024; Zhang et al., 2024a），但它们往往局限于简化场景，例如GUI元素（Nguyen et al., 2024）、干净的模拟器画面（Qin et al., 2024），或能够完全用文本描述的视觉输入（Fan et al., 2022; Achiam et al., 2023）。因此，如何处理并落地真实世界的视觉输入是我们试图解决的关键挑战。

症结：视觉-语言落地（grounding）难。
文本世界的 agent 只处理文字，不需要把“词”对上真实视觉。现实机器人要从真实图像判断“是否在按指令前进”，这一步最容易翻车（光照、遮挡、反光、噪声、动态背景等）。

现有把视觉接进来的 agent 多跑在简化场景（GUI、干净仿真、能被文本完全描述的画面），到真实世界就不稳。

通过 Monitor 进行落地增强。 Monitor $F_m$ 通过提升VLM的任务进度评估能力来应对落地难题。不同于大多数依赖单帧观测 $o_t$ 的LLM类智能体，Monitor使用多帧信息来评估VLA的执行。然而，将全部历史帧 $o≤to_{\le t}$ 都输入会带来高昂的计算开销。为平衡效率与效果，我们采用滑动窗口尺寸为 $h$ 挑选的两帧相邻图像 $o_t,o_{t-h})$ 。已有研究（Li et al., 2024b; Ye et al., 2025; Bruce et al., 2024）表明，这类帧对的差异可提取有意义的语义进展，从而提供一种轻量但信息丰富的方法。

$Monitor：pt=Fm(ot,ot−h,li,C),pt∈P:={Hinder,Ongoing,Failure,Done}(2)\text{Monitor}：\\ p_t=F_m(o_t,o_{t-h},l_i,\mathcal{C}),\quad \\ p_t\in\mathcal{P}:=\{\text{Hinder},\ \text{Ongoing},\ \text{Failure},\ \text{Done}\} \quad (2)$

Monitor $F_m$ 评估从 $o_{t-h}$ 到 $o_t$ 的转变是否体现了朝着指令 $l_i$ 的正向进展。尽管 $p_t$ 可以是表示进度的连续分数，但产生精确且细粒度的数值仍具挑战（Ma et al., 2025）。为提升可靠性与可解释性，我们改为提示 VLM 输出离散进度标识： ${Hinder,Prompting,Failure,Done}\{\text{Hinder},\ \text{Prompting},\ \text{Failure},\ \text{Done}\}$ 。这些简化的阶段既提高了监测结果的准确性，也更便于人类理解。

$l_i$ ：当前子指令（如“拉开抽屉5cm”）。

$C\mathcal{C}$ ：视觉约束（来自 Reflection，下文详述），指示“看哪里/看哪些线索”。

$p_t$ ：离散的阶段标签，而不是一个难以标定的连续分数。

细心的读者会注意到，尽管这种简化有助于降低问题复杂度与错误率，但由于当前 VLM 的内在局限，Monitor 仍可能产生错误的进度标识。为此，我们引入 Reflection，既充当复核器又作为增强推理模块。它输出反思结果 $c$ ，随后回馈给 Monitor 以改进其落地准确性。我们将在下文详述该机制。

在这里插入图片描述图3。PhysiAgent工作流程的示例示意。为完成复杂任务，PhysiAgent以统一且自适应的方式协调其各个组件。此外，它还能在需要时引入人类提示以细化其规划，凸显其作为真实世界具身智能体系统的一个务实且稳健框架的潜力。

通过 Reflection 增强 Grounding。

问题：仅靠 Monitor（用两帧 $o_{t-h},o_t)$ 判断进度）会出错：要么把 “没完成” 判成 DONE（假阳性），要么把“在朝正确方向推进”判成 FAILS（假阴性）。

根因：真实视觉里的细微差异（位置/接触/部件关系）很容易让 VLM 误读；而且不同任务的关注点不同（该看“物体在盘子上”，还是看“机械臂是否朝目标运动”）。

思路：引入一个会“复核+纠偏”的模块 Reflector。它根据矛盾现象，产出“视觉约束” $c$ （告诉 Monitor 以后应该“看哪里/看什么关系/按什么规则判断”），把这些约束存进一个缓冲区 $C\mathcal{C}$ ，让 Monitor 越用越准。

为核验 Monitor 的评估，Reflector $F_r$ 主要接收进度标识 $p_t$ 、视觉观测 $o_{t-h}$ 与 $o_t$ 以及指令 $l_i$ 作为输入。它会交叉检查视觉变化 $o_{t-h},o_t)$ 与预测标识 $p_t$ 之间是否存在不一致。若检测到不一致，Reflector 将识别失败模式并生成相应的视觉约束 $c$ ，存入约束缓冲区 $C\mathcal{C}$ ，以指导 Monitor 在未来避免类似错误。其形式化如下：

$Reflector:c=Fr(ot,ot−h,li,pt),c→C(3)\text{Reflector} : \\ c=F_r(o_t,o_{t-h},l_i,p_t),\quad c\rightarrow \mathcal{C} \quad (3)$

输入

两帧观测： $o_{t-h}, o_t$ （前一帧/当前帧）
子指令： $l_i$ （这一步到底要干什么）
Monitor 给出的阶段标签： $Donep_t\in{\text{Hinder, Ongoing, Failure, Done}}$

工作

交叉核验：当前视觉变化与 $p_t$ 是否一致？（例如“物体确实上了盘子吗？”“机械臂是否在向虾靠近？”）
识别失败模式：错在哪个视觉要点（位置、接触、朝向、相对关系、运动趋势）？
生成视觉约束： $c$ （结构化/可提示的规则），写入 $C\mathcal{C}$ ，供下一次 Monitor 调用时作为关注点/准则。

输出

一条或多条视觉约束 $c$ ，加入到约束缓冲区 $C\mathcal{C}$ 。

（可选）对 $p_t$ 的复核意见（如“上一判定不可信”）。

要点：Reflector 不训练参数，而是在运行时累计规则。这是“零训练增强”的关键。

例如，在“把虾移动到盘子上”（图4）的任务中，虾被放在盘子附近，但仍在桌面上。Monitor 错误地输出了 DONE 标识，未能捕捉到这一细微的位姿偏差——从而产生了假阳性错误。Reflector 识别出该失败模式并生成约束 $c_1$ ：“虾必须放在盘子上而不是桌子上”，以促使后续评估具备更精确的空间判别。

通过 Monitoring 与 Reflection 的反复交互，系统在 $C$ 中不断积累约束，使 Monitor 随时间自适应并提升落地能力。这使得我们的框架能够在完全无需训练的情况下增强任务理解，为真实环境中的具身智能体提供务实且可部署的解决方案。

在这里插入图片描述图4。PhysiAgent视觉约束工作流程的示例。1）假阳性纠正。虾被放在桌子上，但任务被误标为“已完成（DONE）”。对此，Reflector生成一条视觉约束，指示Monitor更仔细地评估虾的位置，以避免类似错误。2）假阴性纠正。机械臂正确地朝虾移动，但该动作被错误地标记为“失败（FAILS）”。Reflector通过生成一条视觉约束来处理该问题，指出此类运动应被谨慎评估，从而改进后续评估。

视觉约束 $c$ 是什么样？

本质是“面向当前子任务的视觉判据”。可以是：

关注区域（ROI/掩膜/关键点）：看“盘子区域”“把手区域”“抽屉前缘线”等；

关系判据：物体A是否“在”物体B上、是否“接触”、内/外关系；

运动趋势：距离是否减小、角度是否变大、速度是否在阈内；

时域要求：比较最近 $h$ 帧，不要用更早帧；

鲁棒指令：忽略全局亮度变化/阴影、优先边缘/角点位移等。

存入 $C\mathcal{C}$ 后，Monitor 的调用接口改为：
$pt=Fm(ot,ot−h,li,C)p_t=F_m(o_t,o_{t-h},l_i,\mathcal{C})$
即受约束的进度评估：按“正确的点”与“正确的关系”看图，降低跑偏。

图4两种纠错示例（把文字与流程对齐）
1 假阳性纠正（False Positive Correction）

任务： $l_i$ =“把虾移到盘子上”。
现状：虾被放在盘子旁，仍在桌面上。

Monitor（第一次）：没加任何视觉约束 → 仅凭两帧差异觉得“看起来完成了” → 输出 DONE。

Reflector：复核后发现不一致（目标是“在盘子上”，现在还在桌面上）→ 识别失败模式“语义关系判断缺失（on plate vs. on table）”。

生成约束 $c_1$ ：

“必须判断虾是否在盘子上，而非在桌面上。”（指定 ROI=盘子区域 + 关系=‘on’） $c1→Cc_1 \rightarrow \mathcal{C}$

Monitor（第二次/今后）：带着 $c_1$ 重新审视 → 输出 Ongoing（尚未完成）。
➡️ 结果：修正了“误判完成”的假阳性；并把判断重心从“像不像完成”转到“是否在盘子上”。

2 假阴性纠正（False Negative Correction）

任务： $l_i$ =“把虾移到盘子上”。
现状：机械臂正确地朝虾移动（是正向进展）。

Monitor（第一次）：没约束 → 把动作误判为 FAILS（可能被遮挡或噪声干扰）。

Reflector：复核两帧运动趋势，识别失败模式“忽略了朝向/距离的正向变化”。

生成约束 $c_2$ ：

“检查是否朝虾方向运动是正向进展。”（指定度量=目标方向距离减小/光流朝向） $c2→Cc_2 \rightarrow \mathcal{C}$

Monitor（第二次/今后）：遵从 $c_2$ 关注运动趋势 → 输出 Ongoing。
➡️ 结果：修正了“误报失败”的假阴性；之后在同类“朝目标接近”的阶段更少误判。

为什么这能“越用越稳”（无需再训练）

每次出现“判错”，Reflector 就“提炼一条新约束”加入 $C\mathcal{C}$ ；
下一次 Monitor 评分就带着这条约束去看 → 相同/相似情形更不易再错；
随使用时间增长， $C\mathcal{C}$ 变成一套任务相关的“可解释规则库”，直接提升落地能力；
全流程不改模型参数、无需再训练，仅通过运行时知识累积实现“自适应”。

通过记忆实现演化。

之前靠 Reflector 产生“视觉约束” $c$ 让 Monitor 越判越准，但 Reflector/Planner 本身是静态（不会随时间变聪明）。

目标：用记忆机制（Memory）让它们“带着经验办事”，从而进化（越来越懂 VLA 的真实本领与易错点）。

尽管 Monitor 可通过累积的视觉约束不断提升能力，但 Reflector 与 Planner 随时间推移仍保持静态。为此，我们引入 Memory 机制，以支持二者能力的演化。具体而言，我们维护 Short Memory $Ms\mathcal{M}_s$ ，在每个执行 $l_i$ 的回合内存储步骤级数据，以支持 Reflector 进行细粒度更新：

$w/Memory：c=Fr(Ms)(4)\text{Short Memory}：(o_t,o_{t-h},l_i,p_t,c)\rightarrow \mathcal{M}_s \\ \text{Reflector w/Memory}：c=F_r(\mathcal{M}_s) \quad (4)$

含义：Reflector 不再只用当前转移 $o_t,o_{t-h},l_i,p_t)$ 生成约束，而是用整段短期记忆来生成更准的约束。

在此，Reflector 不再仅基于当前转移 $o_t,o_{t-h},p_t,l_i)$ 进行反思，而是可利用 $Ms\mathcal{M}_s$ 中保存的完整监控-反思交互历史进行推理，从而在记忆辅助下推进式地改进式(3)，并按式(4)生成更准确的约束。

存什么（每一步）： $o_t,\ o_{t-h},\ l_i,\ p_t,\ c)$

两帧观测：before/after
当前子指令： $l_i$
监控判定： $pt∈{Hinder,Ongoing,Failure,Done}p_t\in\{\text{Hinder,Ongoing,Failure,Done}\}$
当步使用/新生成的视觉约束： $c$

目的：让 Reflector 回看整段回合中的全部监控-反思交互，不是只看“一步的两帧”。

效果：从更长的局部上下文里归纳出更稳、更泛化的约束（避免针对性过强的单步规则）。

为使 Planner 具备动态适应性，我们引入 Long Memory 模块 $Ml\mathcal{M}_l$ ，用于存储与指令 $l_i$ 相关的每个回合的高层摘要。因此，Planner 由式(1)的原始形式更新为结合记忆的形式，如式(5)所示。为降低存储开销， $Ml\mathcal{M}_l$ 仅记录该回合的起始与终止帧 $(oinit,ofinal)(o_\text{init},o_\text{final})$ 、指令 $l_i$ ，以及由 $Ms\mathcal{M}_s$ 归纳出的VLA执行行为文本摘要 $d_i$ ，即 $di=Fs(Ms)d_i=F_s(\mathcal{M}_s)$ 。该记忆结构使Planner 可通过分析视觉转移 $(oinit,ofinal)(o_\text{init},o_\text{final})$ 中的线索与摘要 $d_i$ ，来理解VLA在 $lj≤il_{j\le i}$ 上的熟练度：

$Memory:li+1=Fp(ot,lj≤i,l,Ml)(5)\text{Long Memory}：(o_\text{init},o_\text{final},l_i,d_i)\rightarrow \mathcal{M}_l \\ \text{Planner w/ Memory}: l_{i+1}=F_p(o_t,l_{j\le i},l,\mathcal{M}_l) \quad (5)$

含义：Planner 在产出下一条子指令 $l_{i+1}$ 时，会检索长期记忆，参考历史表现与摘要，动态适配后续规划。

综合而言，Short与Long两级记忆为 Reflector 与 Planner 提供关键上下文，使其既能把握VLA的细粒度行为，又能理解其高层能力边界，从而使智能体框架可依据VLA的实时表现实现动态适配。

存什么（每个子指令回合的摘要）： $(oinit,ofinal,li,di)(o_{\text{init}},\ o_{\text{final}},\ l_i,\ d_i)$

起始/终止帧： $oinit,ofinalo_{\text{init}}, o_{\text{final}}$ （节约存储，不存整段）
本回合的子指令： $l_i$
执行摘要： $di=Fs(Ms)d_i = F_s(\mathcal{M}_s)$ （由短期记忆生成的文本/结构化总结：做了哪些尝试，哪里出错，如何纠偏，最后成败如何）

目的：让 Planner 了解“VLA 在某类子任务上的熟练度画像”，支持下一轮分解时做更合适的策略（先换视角？先回溯？先调用工具？避开某类操作？）

信息如何流动（整合短期/长期）

执行 $l_i$ 期间，每一步把 $o_t,o_{t-h},l_i,p_t,c)$ 写入 $Ms\mathcal{M}_s$ 。
Reflector 基于 $Ms\mathcal{M}_s$ 产出更稳的约束 $c$ （而非只看一步），回灌 Monitor。
回合结束，用函数 $Fs(Ms)F_s(\mathcal{M}_s)$ 生成执行摘要 $d_i$ ；连同 $(oinit,ofinal,li)(o_{\text{init}},o_{\text{final}},l_i)$ 一起写入 $Ml\mathcal{M}_l$ 。
下一回合开始前，Planner 调 $Ml\mathcal{M}_l$ → 判断 VLA 在 $lj≤il_{j\le i}$ 的强弱项 → 调整 $l_{i+1}$ （顺序、粒度、是否先调用 Toolbox 等）。

通过具身工具箱将Agent框架落地到物理世界。 为进一步缩小通向物理落地的具身智能体之间的差距，我们提出了“具身工具箱”（Embodied Toolbox）：这是一组可由VLM调用的工具，用以支持VLA的执行并提升系统整体运行。

如图5所示，当前工具箱包含三大类：感知工具、推理工具与控制工具，其交互示例见图3。感知工具使智能体能够查询多路摄像头，从而获得更宽的视角并提升场景理解。推理工具在智能体遇到困难时用于辅助重规划，或向人类请求输入。控制工具（如“回溯”backtrack）允许系统撤销最近动作，从失败或局部死胡同中恢复——当VLA表现不稳定、且重试可能有益时，尤其有用。需要注意的是，该工具箱可设计为可扩展的，通过完善的接口文档可集成更多工具。

在这里插入图片描述图5。工具箱示例。其中包含感知、控制与思考等工具，用于在真实应用中增强智能体系统。

4. Experiments

4.1. Experimental Setup

我们在真实世界的桌面操作场景中开展实验。具体而言，我们部署了AIRBOT——一台配有夹爪的6自由度机械臂——作为物理交互的主要平台。三台不同的RGB相机分别用于采集工作区的俯视、正视和腕部视角画面。硬件配置细节见图6。

在这里插入图片描述

作为一套自主脚手架，PhysiAgent可兼容任意组合的VLM与VLA，使各组件能够协同交互，充分发挥各自能力。在本工作中，我们使用Gemini 2.0 Flash Lite作为Monitor，并使用Gemini 2.0 Flash同时担任Planner与Reflector。在VLA组件方面，我们评估了两种框架实例：一种采用RDT-1B（Liu et al., 2024a），另一种采用Diffusion Policy（Chi et al., 2024）作为低层控制器。所有VLM均未进行微调，仅使用提示工程。VLA则在域内示范数据上进行微调，以增强其低层操控能力。关于提示构造与微调流程的更多细节见附录D。

任务设置。 我们的真实基准包含三项不同且具有挑战性的桌面操作任务，按两级难度组织。一级任务包括“抓取含膳食纤维的食物”和“抓取含蛋白质与脂肪的食物”，而二级任务为“做一顿饭”，这是一个更高难度的任务，需要多步推理与执行。在所有设置中，模型仅依据高层自然语言指令（如“I’d like something meaty”），不提供任何显式的低层动作指令。这些抽象且含糊的表达要求系统推断用户意图、基于物体语义进行推理，并自主生成合适的操作序列。

基线方法。 我们将PhysiAgent的表现与两类具有代表性的基线进行比较：
（1）基础版VLA策略：直接由观测与指令预测控制动作，不包含高层推理；
（2）常规分层框架：由静态的、基于VLM的任务规划器生成子目标以引导策略。

鉴于静态规划器无法自主跟踪任务进度并实时调整子目标，我们进一步考虑该基线的人类在环变体。在该设置中，人类操作者负责监控执行，并在必要时手动提示 VLM 重新生成子目标。这一增强版本可作为强基准，近似反映理想高层协同下的性能上限。

4.2. Main Results

主要实验结果见图7，性能为5次独立试验的平均值。纵轴表示累计任务进度，横轴表示经过时间（以VLA步数归一化）。每个任务——“抓取含膳食纤维的食物”“抓取含蛋白质与脂肪的食物”“做一顿饭”——分别被分解为2、3和5个离散子任务。每个子任务由严格的检查点标准界定，但智能体在执行顺序上保持完全灵活，可在每个时间步选择任一可用子任务。当某个子任务成功完成后，其对应阶段被标记为已完成并即时计入总分，随后其余子任务即可继续被选择执行。

如图7所示，PhysiAgent以最少的执行步数完成了三类任务中的几乎所有阶段，体现出高效率。值得注意的是，它拓展了RDT与Diffusion Policy的性能边界，使系统能够执行复杂的、未见过的任务，并在仅依赖低层策略时仍表现出鲁棒性。相比之下，基础版VLA模型难以理解抽象的语言指令，常常无法完成全部任务。尽管人类在环的分层方法也能完成任务，但其性能落后于PhysiAgent，原因可能在于高层规划器与低层VLA之间的交互不足。相比之下，PhysiAgent实现了VLM与VLA之间的有机整合。其统一架构——包含Planner、Reflector、Monitor、Toolbox与Memory——构建出一个更智能、更自适应且更高效的具身系统，有利于在真实世界中部署。

在这里插入图片描述图7。针对任务的实验结果，其中“I need more dietary fiber”和“I want protein and fat”等任务包含不超过3个VLA子任务；而“please prepare a brunch for me”这一任务需要经过5个阶段。纵轴表示累计任务进度，横轴表示VLA步数。结果表明，在任务完成效率方面，我们的PhysiAgent框架持续优于基础版与分层基线方法。

5. Related Works

视觉-语言-动作模型： 视觉-语言-动作（VLA）模型已成为具身人工智能领域的基石（Ma et al., 2024; Brohan et al., 2023; Liu et al., 2024b），在多种任务中展现出卓越能力，从桌面操作任务（Kim et al., 2024; Octo Model Team et al., 2024; Chi et al., 2024; Liu et al., 2024a）到复杂的灵巧操作（Zhong et al., 2025; Chen et al., 2025）。受益于端到端训练范式，VLA模型为可扩展的具身学习提供了一条前景可观的路径。近期在数据收集与合成数据生成方面的工作（Shi et al., 2025; Maddukuri et al., 2025）进一步加速了通用化、基础级VLA模型的发展。然而，尽管持续扩大规模，近期研究（Blank et al., 2024）报告称，随着数据量增大，性能收益呈现递减趋势，说明单纯增加数据并不是高效的前进路径。

具身AI的分层框架： 提升具身模型泛化的一条直接途径，是将VLA模型与强大的视觉-语言模型（VLM）进行集成。有一类工作聚焦于对VLM与低层动作模型进行联合训练。这些方法将VLM视为编码器—解码器式VLA流水线中的嵌入组件（Bjorck et al., 2025; Bu et al., 2024; Lee et al., 2024; Zheng et al., 2025; Szot et al., 2024），以充分利用预训练参数实现高效的知识迁移。另一类研究以自然语言为接口，连接VLM与VLA模型（Beyer et al., 2024）。例如，Ahn等（Ahn et al., 2022）使用LLM在预训练价值函数的引导下选择技能级指令。Huang等（Huang et al., 2022b）进一步将该范式扩展为通过自然语言纳入实时环境反馈。尽管这些方法凸显了整合VLM与VLA模型的潜力，但它们常依赖于僵化的组合机制或任务特定的训练——关于如何在VLM与VLA之间实现更灵活、自主、模块化的集成仍然是个开放问题。

数字世界中的LLM代理： 基于LLM的代理因其在模拟环境中执行复杂、指令驱动行为的能力，近来受到越来越多的关注。大量工作集中在单代理设定中，利用LLM对任务结构进行推理，并合成具备语义落地的技能级动作。例如，Huang等（Huang et al., 2022a）在VirtualHome（Puig et al., 2018）中使用零样本提示进行指令跟随；而LLM-Planner（Song et al., 2023）在ALFRED（Shridhar et al., 2020）中利用小样本提示支持长时域规划。随着MineDojo（Fan et al., 2022）与MineRL（Guss et al., 2019）等交互式模拟器的发展，LLM代理的语义落地能力在更复杂、开放式环境中得到进一步探索（Wang et al., 2023a; Qin et al., 2024）。更近一步的研究将这一范式扩展至多代理系统，由多个专长代理协作完成协同任务（Li et al., 2023）。尽管这些方法展示了LLM代理在仿真中的潜力，但仍局限于虚拟领域，并在很大程度上忽视了真实世界部署的独特挑战——比如自我中心感知、异步执行以及物理语义落地的交互。

6. 结论

我们提出了PhysiAgent，这是首个以物理为基础落地的具身智能体框架，凭借统一且自我调节的架构，实现VLM与VLA之间的动态与自适应协作。借助反思、监控、记忆以及可扩展的工具箱，PhysiAgent突破了僵化的流水线式流程，能够利用来自任务执行的实时反馈。我们在真实机器人平台上的实验验证了该框架的有效性，展示了其在多任务上的强泛化能力与鲁棒性。更为重要的是，PhysiAgent具备模块化与即插即用的特性，只需极小的工程代价即可适配多种VLM与VLA。我们认为，PhysiAgent向构建可扩展的通用型具身智能体迈出了关键一步，使其能够在复杂的物理环境中实现自主运行。

A. 限制

尽管PhysiAgent已在真实世界的机器人桌面操作场景中验证了有效性，但其在其他类别的具身AI任务（如导航（Zhang et al., 2024b））中的物理世界适用性仍未被探索。鉴于PhysiAgent在设计上强调模块化与任务类型无关性，未来工作可望将其在真实环境中的部署扩展到更广泛的具身AI领域。

此外，当前的PhysiAgent实现主要聚焦于在单智能体具身框架内实现完全自主。一个完整的具身智能体系统的其他关键组成部分——例如智能体间通信与协作——尚未被纳入。如（Park et al., 2023）所建议，集成通信模块有助于发展多智能体系统，从而推动具身AI框架能力的提升。

最后，我们的实现完全依赖商用的视觉-语言模型（VLM），包括Gemini 2.0 Flash（DeepMind, 2024）、GPT-4o（Hurst et al., 2024）以及Doubao-Vision-Pro-32k（Team, 2025）。将这些专有模型替换为开源替代方案，有望构建出更加透明、可定制、且可完全嵌入的具身系统。

B. 详细流程示意

图8给出了PhysiAgent在执行单阶段任务时的详细工作流程可视化。该图是对图3中高层概览的扩展性示意。

在这里插入图片描述

C. 真实世界桌面操作数据集

我们主要实验中使用的VLA任务包括：将西兰花放到盘子上、将蘑菇放到盘子上、将香肠放到盘子上、将虾放到盘子上，以及将薯条放到盘子上。每个任务包含 $150$ 条由人类遥操作采集的示范，采集环境为真实世界桌面操作场景。

D. 已实现的视觉-语言-动作模型细节

我们实现了Diffusion Policy的多任务变体，并采用ResNet-50作为视觉骨干网络。语言指令通过FiLM条件化层注入。该模型在附录C所述数据集上训练 $1.2$ 百万步，使用 $4$ 张NVIDIA A800 GPU、耗时 $27$ 小时，batch size为 $64$ 、学习率为 $0.0003$ 。此外，我们在领域特定数据集上微调RDT-1B模型 $50{,}000$ 步，使用 $8$ 张A800 GPU、耗时 $20$ 小时，batch size为 $64$ 、学习率为 $0.0001$ 。