当前位置: 首页 > news >正文

具身智能论文阅读:Robotic Control via Embodied Chain-of-Thought Reasoning

Abstract

学习型机器人控制策略的一个关键限制在于其无法在训练数据之外进行良好的泛化。近年来,关于视觉-语言-动作模型(Vision-Language-Action models, VLAs)的研究表明,使用在大规模互联网数据上预训练的视觉-语言模型作为学习型机器人策略的骨干网络,可以显著提升其鲁棒性和泛化能力。然而,在其他领域中,大型视觉-语言模型最令人兴奋的能力之一,是其能够通过迭代推理解决复杂问题。那么,这种能力能否被引入机器人领域,使得策略在执行任务前能够通过推理来提升表现呢?

直接使用“思维链”(chain-of-thought, CoT)式提示在标准VLA上效果并不理想,因为这类模型所能获得的训练样例相对简单。此外,传统CoT中的纯语义推理(主要针对子任务的逻辑推导)对于机器人策略而言并不足够——机器人需要将推理结果与感知到的视觉信息和自身状态进行紧密关联。

为此,我们提出了具身思维链推理(Embodied Chain-of-Thought Reasoning,简称 ECoT)方法,用于视觉-语言-动作模型。ECoT训练VLA在预测机器人动作之前,能够针对计划、子任务、运动以及诸如目标物体的边界框和末端执行器位置等具身视觉特征,进行多步推理。

我们设计了一套可扩展的数据生成管线,用于在大规模机器人数据集上生成ECoT的合成训练数据。实验结果表明,ECoT在无需额外机器人训练数据的情况下,使当前最强的开源VLA策略 OpenVLA 在具有挑战性的泛化任务上的绝对成功率提升了28%。此外,ECoT还能让人类更容易理解策略失败的原因,并通过自然语言交互地纠正其行为。

最后,我们展示了模型能够将ECoT的推理能力迁移到未见过的机器人形态与任务中,进一步证明了该方法的普适性与可扩展性。

Introduction

端到端训练的机器人策略能够根据感知观测直接输出底层动作,这种方法为机器人控制提供了一种强大而有吸引力的基于学习的途径。它省去了复杂的感知与控制系统堆叠的需求,也无需将复杂的感知观测再处理为灵巧的底层控制信号 [1, 2, 3]。然而,这种“反应式”(reactive)控制在需要广泛泛化能力的场景中(例如全新的环境或与陌生物体交互时)并不一定是最优选择。

在这种情况下,人类通常会进行更深层次的思考——例如,当被要求将水果放在一个盘子上、蔬菜放在另一个盘子上时,人类不会仅凭“肌肉记忆”执行某个熟练的动作,而是会先思考并判断哪些物体是水果、哪些是蔬菜。类似地,我们希望机器人策略不仅能够执行熟练的端到端控制,还能在面对新情境时先进行推理,再将这种推理结果落实为动作。

这种推理过程可能包括:识别并定位与任务相关的物体制定完成任务的计划,以及将子任务与观测信息转化为具体的运动控制

视觉-语言-动作模型(Vision-Language-Action models, VLAs)——即对预训练的视觉-语言模型(Vision-Language Models, VLMs)进行微调以输出机器人动作的模型——近年来作为一种利用大型基础模型(large foundation models)中蕴含的多样化互联网数据的简单且可扩展的策略学习方法而受到广泛关注 [4]。尽管VLAs在广泛的任务和多种机器人形态上都取得了当前最先进(state-of-the-art)的性能 [5, 6, 7],但它们通常仅学习从观测到动作的直接映射,而缺乏中间推理过程。然而,近年来有许多研究探索了语言模型(language models,亦即VLA的核心骨干)如何通过提示(prompting)来对给定任务进行文本化的“逐步思考”(think step-by-step)。这种思维链推理(chain-of-thought reasoning, CoT)[8] 能够显著提升模型在复杂推理任务上的表现,并已成为语言建模领域中的事实标准实践 [9]。

因此,我们提出这样一个假设:如果让视觉-语言-动作模型(VLA)在输出机器人动作之前,能够以文本形式对其计划(plan)、环境(environment)和运动(motions)进行推理,那么模型的动作预测将会更加准确且具备更强的鲁棒性。然而,直接将语言建模领域的思维链(chain-of-thought, CoT)技术应用到机器人领域仍面临若干挑战。首先,当前的VLA大多建立在相对较小的开源视觉-语言模型(VLMs)之上,这些模型在仅通过“逐步思考(step-by-step thinking)”提示时,其推理能力远不及封闭式大型模型 [8]。此外,语言模型中常见的CoT推理方式——将任务分解为若干子任务(sub-tasks)——虽然在一定程度上有帮助,但仍不足以支持机器人任务的推理。VLA策略需要将其计划与推理过程落地(ground)到其对环境和机器人状态的感知中。只有这样,推理过程才能有效地引导智能体关注到那些解决机器人操作任务所必需的精细空间特征(fine-grained spatial features)或语义感知特征(semantic perceptual features)。简而言之,我们需要VLA不仅能够“认真思考”(think carefully),还要能够“认真观察”(look carefully)。

为此,我们提出了用于VLA策略的具身思维链推理(Embodied Chain-of-Thought Reasoning, ECoT)。与以往的VLA不同,ECoT策略在预测下一步机器人动作之前,会执行多步文本化推理(见图1右侧)。与传统语言模型的CoT推理方法相比,ECoT将语义层级(semantic-level)的子任务推理与具身层级(embodied-level)的推理任务交替进行——后者要求模型关注其多模态输入,例如从预测场景中物体的边界框(bounding boxes)到基于当前机器人状态推理需要执行的底层运动原语(low-level movement primitives)。

为了让开源VLA中相对较弱的语言模型(LLM)骨干能够有效执行此类推理,我们设计了一条可扩展的管线,用于在大规模机器人数据集上合成生成具身CoT训练数据(synthetically generating embodied CoT training data)。具体而言,我们利用强大的开放词汇物体检测器(open-vocabulary object detectors)与大型语言模型(large language models, LLMs),为我们的策略生成推理监督信号(reasoning supervision)。

我们的实验表明,通过在动作预测之前训练最先进(state-of-the-art)的视觉-语言-动作模型(VLA)执行多步推理,可以显著提升其在复杂泛化任务中的表现。我们的方法使当前表现最优的开源VLA策略——OpenVLA [7]——在一系列机器人操作任务中的绝对成功率(absolute success rate)提升了28%。这些任务涉及对全新物体、场景、视角以及指令的泛化,而这一提升是在**无需额外机器人训练数据(without any additional robot training data)**的情况下实现的。

除了性能上的提升之外,实验结果还表明,使用具身思维链(embodied CoT)进行训练的VLA,其策略失误更加可解释(interpretable)。这种特性使人类能够通过自然语言反馈(natural language feedback)修改错误的推理链,从而轻松地纠正策略的行为。

Related Work

扩展机器人学习(Scaling robot learning)。机器人学习的一个长期目标是训练出能够在各种非结构化真实环境中泛化的控制策略。为实现这一目标,近年来的研究探索了在多样化机器人数据集上训练“通用型机器人策略”(generalist robot policies)[10, 11, 12, 13, 14, 15, 16, 17] 的方法,这些数据集来源广泛且包含不同类型的机器人任务 [18, 19, 10, 20, 21, 22, 23, 24, 13, 14, 25, 15, 26, 6]。由于训练数据的多样性,许多此类策略可以通过自然语言提示(natural language prompts)执行多种操作任务,一些通用型策略甚至能够控制多种不同形态的机器人(multiple robot embodiments)[16, 27, 6]。值得注意的是,这些研究表明,在大规模且多样化的数据集上训练机器人策略,是提升策略鲁棒性(robustness)与泛化能力(generalization ability)的一个极具潜力的方向。

视觉-语言模型在机器人泛化中的应用(Vision-language models for robot generalization)。为了实现超越已有机器人数据集的更强泛化能力,近年来发展出的强大开源视觉-语言模型(vision-language models, VLMs)能够学习视觉-语言表示(visuo-linguistic representations)[28, 29],从文本生成图像(generate images from text)[30],或根据图像与提示生成文本(generate text in response to images and prompts)[31, 32, 33, 34, 35],从而催生了大量探索此类模型与机器人学习流程(robot learning pipelines)相结合的研究,例如用于生成任务目标(generate goals)[36]、提供奖励信号(reward signals)[37, 38, 39],或学习视觉状态表示(visual state representations)[40, 41, 42]。由于收集大规模机器人数据集的成本与难度极高,使用在互联网规模数据(Internet-scale data)上预训练的模型,成为实现能够适应多样化非结构化真实环境的鲁棒机器人策略的一种具有吸引力的替代途径。与本文最相关的是将预训练视觉-语言模型集成进学习型机器人策略的研究。部分工作通过在策略中引入结构先验(structural priors)来实现这种集成 [43, 44, 45],而视觉-语言-动作模型(Vision-Language-Action models, VLAs)则被提出作为一种更简单且可扩展的替代方案 [5, 6, 7],不仅在通用型机器人策略上取得了最先进的性能(state-of-the-art performance)[7],还展现出在新物体与新场景上的显著泛化能力。然而,现有的VLA尚未充分利用其底层语言与视觉-语言模型中最具吸引力的特性——即推理能力(reasoning capability),尤其是对完成任务所需步骤的推理。

语言与控制中的推理(Reasoning for language and control)。这种逐步推理(step-by-step reasoning)是大型语言模型(Large Language Models, LLMs)解决复杂任务的关键要素。通过提示LLM(无论是直接提示 [46] 还是通过上下文示例 in-context examples [8])在给出答案前“逐步思考”(think step-by-step),可以显著提升其表现。这种**思维链推理(chain-of-thought reasoning, CoT)**技术已成为语言建模与(视觉)语言模型训练中的标准做法 [9, 47]。一些研究也探索了在机器人高层任务规划(high-level task planning)中应用类似技术 [48, 49, 50, 51, 52, 53, 54, 55, 56]。这些方法通常使用预训练或微调的LLM将任务分解为高层子任务(high-level sub-tasks),再依赖预训练的低层策略(low-level policies)来执行这些任务。然而,我们认为:(1) 细致的推理(careful reasoning)不仅对高层子任务推理有益,也同样有助于低层控制过程;(2) 所有层级的推理都应当与视觉观测(visual observations)及智能体状态(agent’s state)紧密结合。

因此,与以往工作和仅限语言的CoT不同,我们的方法训练一个VLA策略,使其能够在给定输入指令(input instructions)与观测(observations)的条件下,自回归地(autoregressively)生成思维链(CoTs)(用于高层与低层推理)以及对应动作,从而确保两者都牢固地**锚定(grounded)**在智能体的真实环境中。我们通过实验证明,这种形式对于有效利用(视觉)语言模型的推理能力以实现控制至关重要。

Preliminaries: Vision-Language-Action Models

我们的工作以视觉-语言-动作模型(Vision-Language-Action models, VLAs)作为具身思维链策略(embodied chain-of-thought policies)的核心骨干(backbone)。VLA采用一种简单的策略学习方法:从一个预训练的视觉-语言模型(vision-language model)开始,对模型进行直接微调(finetune),使其能够自回归地(autoregressively)预测下一个机器人动作 aaa,该预测基于当前的图像观测

http://www.dtcms.com/a/529332.html

相关文章:

  • 张店学校网站建设哪家好中美俄最新军事新闻
  • 演出票务网站建设wordpress图片中文不显示解决
  • 自己用dw做网站能加声音吗网站建设兴田德润
  • 北京网站建设公司朝阳泰国公共建设网站
  • 虚拟机挂起,重启后主机连接不上虚拟机docker中的mysql?(docker网络状态假死)
  • 2018年网站开发语言wordpress免费图床插件
  • PyTorch 深度学习基础:Dataset 与 DataLoader 详解
  • 2.4寸SPI串口ILI9341芯片彩色LCD驱动
  • 绍兴企业做网站浙江建设信息港电工证查询
  • 【系统分析师】高分论文:论需求分析及其应用(ERP 财务管控项目)
  • 数据结构(9)
  • 怎么做点播网站唐山企业做网站
  • 网站建设迅雷wordpress 简洁文章主题
  • 成都网站建设好多钱中英版网站怎么做
  • wait和notify机制详解
  • 网站开发文档需求撰写word营销型网站建站系统
  • wordpress order插件seo实训报告
  • 南宁建设厅网站是什么品牌网络市场环境调研报告
  • 做外贸需要做网站吗电子商务网站建设读书笔记
  • Linux17 进程间的通信 消息队列
  • 从WSL安装到初始化buildozer全过程~
  • 点击网站排名西南网架公司
  • 专做宠物的网站注册一个5000万空壳公司要多少钱
  • 长春火车站进站需要核酸检测吗豆瓣 wordpress
  • 【Java 序列化 (Serialization)】
  • STM32H743-ARM例程30-Modbus
  • ps网站导航怎么做wordpress 主题详解
  • 网站建设全网推广小程序网站制作app排行榜前十名
  • 正规网站建设多少费用深圳品牌设计公司哪家好
  • Product Hunt 每日热榜 | 2025-10-25