当前位置：首页 > news >正文

让机器人边思考边行动！新一代具身智能EO-1：统一架构突破VLA瓶颈

news 2025/9/23 10:13:06

机器人在执行任务时能否像人类一样，一边观察环境、一边调整策略、一边精准操作？

传统的视觉-语言-动作（VLA）模型采用"先看完、再理解、后执行"的串行处理方式——就像让厨师必须看完整本菜谱才能开始切第一刀。而人类在操作物体时，视觉观察、认知推理和动作执行是同步交织进行的。

最新研究EO-Robotics提出了交错具身预训练（Interleaved Embodied Pretraining）这一突破性方案：通过统一的Transformer架构，让推理和行动在时序上深度融合，实现真正意义上的具身智能。

本文将从模型架构、数据构建、训练策略等多个维度，深入解析这项可能改变机器人学习范式的研究。

串行处理的固有局限

现有VLA模型将机器人动作生成放在序列末端，这种设计带来了三个根本性问题。首先是时序依赖的缺失：动作生成无法利用执行过程中的实时反馈，导致机器人像"盲人摸象"般执行预设程序。其次是模态割裂：视觉编码器、语言模型和动作解码器各自为政，跨模态的知识难以有效传递——这就像让三个说不同语言的专家合作，沟通成本极高。最后是泛化能力受限：早期VLA模型仅在有限的机器人数据集上训练，一旦面对新环境或新物体，性能急剧下降。

技术实现的核心挑战

从架构设计角度看，构建统一的多模态模型面临着离散与连续的统一难题。文本是离散的符号序列，适合用交叉熵损失优化；而机器人动作是连续的控制信号，需要回归或去噪方法。如何在同一个网络中优雅地处理这两种本质不同的信号？

时序建模是另一个关键挑战。机器人执行任务时，当前动作会影响后续观察，新的观察又会调整推理策略——这种复杂的因果链条如何在模型中准确表达？现有方法要么忽略这种依赖关系，要么通过复杂的多模块设计来近似，都无法从根本上解决问题。

统一架构：共享参数的深层价值

▲图1 | EO-1模型架构。 EO-1模型是一个视觉-语言-动作（VLA）模型，采用单一统一的仅解码器transformer，配备用于多模态具身推理的离散语言建模头和用于机器人动作生成的连续流匹配头。语言指令、图像观察、机器人状态和噪声动作被编码成交错的标记序列，由共享的transformer主干网络处理，其权重从Qwen2.5-VL初始化。该模型在交错的视觉-文本-动作数据上训练，结合流匹配目标和下一个标记预测目标，能够无缝地进行具身推理和行动。EO-1采用了基于Qwen 2.5 VL的decoder-only Transformer架构，但其创新远不止于此。共享参数设计让所有模态使用同一套网络权重，这不是简单的参数复用，而是实现了深层的知识融合。当模型处理视觉信息时积累的物体识别能力，可以直接指导动作生成；语言理解中学到的因果推理，能够帮助预测动作序列的合理性。

双重优化目标的协同是另一个关键创新。对于文本标记，模型使用标准的自回归预测：

$L_{ar} = -log P(text_t | context)$

对于动作生成，采用流匹配（Flow Matching）方法：

$L_{fm} = ||v_\Theta(a_t^\tau, \tau) - (a_t - z^\tau)||^2$

这两个目标通过共享的Transformer参数联合优化，实现了离散推理和连续控制的无缝融合。

交错数据：重新定义多模态序列

▲图2 | 交错矫正采样策略。我们的方法从机器人动作生成片段中采样可变长度的子序列，在保持因果关系的同时实现混合模态生成的高效训练。传统VLA的数据格式是[观察→语言→动作]的单向流，而EO-1设计了三种交错格式，每种都有其独特的认知价值。

交错时间推理格式模拟了人类的计划-执行-验证循环。机器人在执行抓取任务时，先通过问答理解"为什么要抓这个物体"，执行动作后再验证"是否成功抓取"。这种格式让模型学会了任务的完整逻辑链条。

交错空间推理格式专注于物理世界的空间关系理解。通过预测轨迹和验证位置，模型不仅学会"怎么动"，更理解"为什么这样动"。比如在避障任务中，模型需要推理"绕过障碍物需要先向左移动20cm"这样的空间逻辑。

交错自由聊天格式则引入了开放式的推理问答，让模型在执行动作的同时保持对环境的全面理解。这种格式特别有助于处理意外情况——当机器人发现目标物体被遮挡时，能够推理出需要先移除遮挡物。

训练策略：解决因果悖论

交错训练面临一个技术难题：流匹配需要对动作加噪声进行去噪训练，但后续的文本和图像应该基于干净的动作结果而非噪声。这就像教学生写作文，虽然草稿可能涂涂改改，但评判逻辑连贯性要基于最终的清晰版本。

EO-1的交错矫正采样策略巧妙地解决了这个问题。对于包含N个动作段的序列，模型将其分解为N+1个训练子序列。在每个子序列中，当前动作段使用噪声版本进行去噪训练，但作为后续内容的输入时则替换为干净版本。这种设计确保了因果关系的正确性，同时不影响去噪学习的有效性。

三类数据的协同作用

EO-Data1.5M不是简单的数据堆砌，而是精心设计的知识体系。Web多模态数据（570万样本）提供了广泛的世界知识基础，让模型理解"杯子是用来装水的"这类常识。机器人控制数据（120万集）来自真实的操作轨迹，包含了丰富的动作执行细节。交错具身数据（150万样本）则是连接理解和执行的桥梁，通过时空推理问答将抽象知识与具体动作关联起来。

数据质量控制体现在多个细节中。机器人数据往往来自相似的实验室环境，研究团队通过视觉相似性过滤确保训练数据的多样性。他们还使用VLM和人工标注相结合的方式，为每个机器人动作片段添加了平均3-5个推理问答，涵盖物理常识、任务规划、状态估计等多个维度。

数据构建的系统性思考

从现有机器人数据构建交错数据需要深入的领域知识。研究团队设计了一套完整的标注协议：首先识别动作序列中的关键时刻（抓取前、接触时、完成后），然后针对每个时刻设计相应的推理问题。例如，在抓取前询问"哪个物体更容易抓取"，在接触时询问"当前抓取力度是否合适"，在完成后验证"物体是否稳定"。

你说得对，我的表格编号确实混乱了。让我根据原文重新整理"实验验证"部分，保持与原文的一致性：

数据规模：135B标记的精心构建

▲表1｜EO-1训练数据概览

EO-1的训练建立在三类数据的协同之上，总计135B标记。Web多模态数据（5.7M样本，7.1B标记）提供了广泛的视觉-语言理解基础，包括LLaVA系列和RoboVQA等数据集。机器人控制数据（1.2M轨迹，127.3B标记）来自AgiBotWorld、Open X-Embodiment等真实操作数据集，涵盖了丰富的机器人执行细节。最关键的是交错具身数据（1.5M样本，1.0B标记）——这是从现有机器人数据中精心构建的视觉-文本-动作交错序列，捕捉了具身交互中的时序动态和因果关系。

具身推理：超越传统VLM的理解深度

▲表2｜具身推理基准测试性能对比

在RoboVQA测试中，EO-1达到58.5的BLEU-4分数，大幅领先GPT-4o（47.2）、Gemini 1.5 Flash（46.0）等闭源模型。这项测试评估长期视觉空间推理能力——面对"机器人应该如何清理工作台"这类问题，EO-1不仅识别物体，还能推理操作顺序和空间关系。

ERQA基准专注于空间推理和世界知识。EO-1达到45.5%的准确率，超越了InternVL2.5 8B（45.2%）和Qwen2.5 VL 7B（39.3%）。在判断"物体能否通过特定空间"这类物理推理问题上，EO-1展现出对三维空间的深刻理解。

自建的EO-Bench提供了更细粒度的评估。在空间理解任务（多视角推理、轨迹预测、视觉定位）上，EO-1达到36.4分，而主流VLM平均仅32分。时序推理任务上，EO-1得分38.9，展现了对任务规划和过程验证的强大能力。

机器人控制：精准执行与长期规划

▲表3｜LIBERO基准测试性能对比

在LIBERO的四个子集中，EO-1全面领先。LIBERO-Spatial测试空间泛化，EO-1达到99.7%成功率（π0为96.8%）。LIBERO-Object测试物体类别泛化，成功率99.8%。最具挑战性的LIBERO-Long需要执行超过15步的连续操作，EO-1仍保持94.8%的成功率，而配备FAST tokenizer的π0-FAST仅60.2%。整体而言，EO-1平均成功率98.2%，创造了新的性能记录。