当前位置：首页 > news >正文

【论文阅读】Robix：机器人交互、推理与规划的统一模型

news 2025/9/23 9:26:27

Robix将机器人的推理、自适应任务规划和自然人机交互统一到一个单一的视觉-语言模型中，作为通用机器人的高级认知层。字节跳动的Seed模型在具身推理任务和ByteMini机器人的实际部署中取得了卓越的性能，在交互式任务执行方面超越了领先的商业和开源VLM。

概述

Robix 代表着在构建能够与人类在复杂、动态环境中自然交互的通用机器人方面迈出了重要一步。传统的机器人系统依赖于碎片化、模块化的方法，将推理、规划和交互分离成不同的组件，而 Robix 采取统一的方法，将所有这些能力集成到一个单一的视觉-语言模型中，作为分层机器人系统的认知层。

显示 Robix 系统架构的图示，包括人类指令、视觉观察和模型的思维链推理过程

该系统在分层架构中运行，其中 Robix 充当高级认知控制器，为低级执行系统生成原子命令，并为人机交互生成自然语言响应。这种设计实现了诸如主动对话、实时中断处理和上下文感知推理等复杂功能，这些功能远远超出了简单的任务执行。

系统架构与设计理念

Robix 摒弃了传统的模块化机器人架构，通过实现一个端到端的视觉-语言模型，原生集成了三个关键能力：具身推理、自适应任务规划和自然语言交互。该系统通过迭代的推理-行动循环运行，其中每一步都涉及处理多模态输入（视觉观察和人类指令）、生成思维链推理，并产生适当的行动或响应。

分层系统概览，显示 Robix 作为高级规划器与 VLA 模型进行通信以进行低级控制

该模型处理包含人类指令、机器人视角的视觉观察以及先前交互历史的序列。对于每个时间步，Robix 生成包含以下内容的结构化输出：

思考：分析当前情况的思维链推理
行动：针对低级控制器的具体原子命令
响应：与人类用户的自然语言交流

这种统一的方法使系统能够保持连贯的长期规划，同时无缝处理中断、澄清和任务要求的动态变化。

训练方法

Robix 的开发遵循一种复杂的三阶段训练策略，旨在逐步构建更复杂的能力：

阶段 1：具身推理的持续预训练

第一阶段侧重于增强物理世界交互所需的基本能力。训练语料库包含约 2000 亿个标记，涵盖五个关键领域：

不同训练数据类别的示例，包括 3D 空间理解、视觉基础和以任务为中心的推理

3D 空间理解（3000 万+ 指令对）：任务包括多视图对应、3D 边界框检测、相对深度排序、绝对深度估计和自我运动预测。这使机器人能够有效理解空间关系并在 3D 环境中导航。

视觉基础（5000 万+ 对）：涵盖对象定位、计数和视觉提示任务，以确保准确识别和操作物理世界中的对象。

以任务为中心的推理（500 万+ 示例）：基于机器人演示数据集，侧重于三个关键能力：

任务状态验证：确定特定行动是否已完成
行动可供性：理解在给定情况下哪些行动是可能的
下一步行动预测：规划适当的后续行动

推理示例通过详细的“思维轨迹”进行扩充，为复杂的决策过程提供丰富的训练信号。

阶段2：用于交互能力的监督微调

由于高质量人机交互数据的稀缺，作者开发了一种创新的数据合成管道，将现有的机器人演示数据集转化为丰富的交互场景。

数据合成管道展示了从源数据到交互合成再到推理合成的转换

合成过程生成了七种不同的交互类别：

多阶段指令：需要顺序推理的复杂任务
受限指令：具有特定要求或限制的任务
开放式指令：需要常识推理的灵活任务
随时打断：用户在任务执行中途进行的更改或修正
无效指令：处理不可能或不安全的请求
模糊指令：需要澄清或解释的指令
聊天指令：一般对话和信息交流

每个合成的交互都包含由最先进的视觉-语言模型生成的详细思维链推理，创建了将任务执行与自然通信相结合的丰富训练示例。

阶段3：用于一致性的强化学习

最后的训练阶段使用组相对策略优化（GRPO）来完善模型的推理能力，并确保思维和行动之间的一致性。主要创新包括：

思维-行动一致性奖励：一个外部语言模型评估机器人的生成推理是否逻辑上支持其所选择的行动，对不一致性提供负面奖励。

协同训练策略：对机器人交互数据和通用视觉推理任务进行强化学习，以提高鲁棒性和泛化能力（超出分布数据）。

这种方法解决了具身人工智能中的一个关键挑战——确保系统内部推理与其外部行动保持一致。

实验结果和性能

Robix 的评估显示其在机器人智能的多个维度上持续优越：

基本能力评估

在持续预训练后，Robix 在关键能力领域相较于其基础模型展现出显著提升：

3D 空间理解：平均准确率比基线模型提高 6.5-5.1 个百分点
视觉定位：显著提升，在挑战性基准测试中 F1 分数增益高达 39.6 分
以任务为中心的推理：在具身推理任务上表现强劲，准确率提高 7.2-12.8 个百分点

交互任务性能

在模拟复杂人机交互的离线评估中，Robix-32B 在所有测试场景中始终排名第一，显著优于商业模型（GPT-4o、Gemini-2.5-Pro）和专业机器人模型。

消融研究揭示了关键见解：

思维链推理被证明至关重要，移除后性能下降超过 7 个百分点
强化学习提供了关键的优化，将超出分布任务的准确率提高了 3.3-8.3 个百分点

真实世界机器人部署

最终验证通过在物理机器人平台上部署实现。在涵盖五项不同任务（收拾餐桌、结账打包、饮食过滤、杂货购物、餐具整理）的人类遥操作场景中，Robix 的平均任务完成度达到 92.6%，略优于 Gemini-2.5-Pro。

真实世界任务性能比较显示 Robix-32B 在多项任务中取得最高分数

更令人印象深刻的是，在采用ByteMini机器人平台进行全自主操作时，Robix展现了卓越的实际性能，实现了92.5%的平均任务进度，同时与商业替代方案相比，保持了更低的延迟和更好的动作兼容性。

ByteMini机器人在三项任务中的性能表现，显示Robix-32B优于其他模型

技术创新与贡献

Robix与现有方法相比，有几项关键创新：

统一架构：Robix并非连接感知、推理和规划的独立模块，而是将这些能力整合到一个单一的视觉-语言模型中，从而实现更连贯和适应性的行为。

复杂数据合成：从基本演示数据创建逼真的人机交互场景，解决了训练具身AI系统中的一个关键瓶颈。

推理-行动一致性：在强化学习过程中创新性地使用一致性奖励，确保机器人的内部决策过程与其外部行动保持一致。

实时交互处理：该系统处理中断、进行澄清对话以及适应不断变化的需求的能力，代表了向自然人机协作迈出的重大一步。

局限性与未来方向

作者承认有几个需要改进的领域：

幻觉与推理空白：在高度动态的环境中，系统可能仍表现出物理常识推理方面的不一致或空白。

记忆限制：目前对短期上下文窗口的依赖限制了系统在长时间交互中保持连贯性的能力。

未来的发展将侧重于实施更复杂的长期记忆机制，类似于大型语言模型中使用的上下文工程方法，以使机器人能够在长时间交互和复杂的多日任务中保持一致的行为。

现实世界部署场景示例，显示机器人执行各种家庭和服务任务

意义与影响

Robix代表着向通用机器人目标迈出的实质性一步，这些机器人能够无缝融入人类环境。通过证明复杂的交互能力可以从统一训练而非工程模块化中涌现，这项工作为构建更强大、更自然的机器人助手开辟了新方向。该系统在实际部署中的强大性能，结合其对人类交互的复杂处理能力，表明真正有用的家庭和工作场所机器人的愿景可能比之前想象的更接近现实。

这项研究不仅提供了一个功能强大的系统，还在数据合成和训练策略方面提供了宝贵的方法论贡献，这将使更广泛的具身AI研究社区受益。随着机器人越来越多地从结构化的工业环境走向动态的人类空间，像Robix这样的方法对于创建能够真正理解、推理和响应我们周围复杂、不断变化的世界的机器至关重要。

查看全文

http://www.dtcms.com/a/395358.html