首次让机器人具备类人的「主动感知」能力
斯坦福重大突破|首次让机器人具备类人的「主动感知」能力,双臂操作任务中性能提升45%!
原创 深蓝学院-具身君 深蓝具身智能 2025年06月28日 10:56 北京
让机器人从包里拿出一根香蕉需要经过以下三个步骤:
扫视环境找到包→探头看包里面找香蕉→聚焦在香蕉上确定抓取方式。
这一简单动作,涉及到复杂的主动视觉感知策略——搜索、跟踪、聚焦。
斯坦福大学研究团队最新提出的Vision in Action (ViA)系统,成功让机器人也学会了这种人类独有的能力!
▲动态视觉(ViA)使用主动头部摄像头在袋子内搜索目标物体(黄色香蕉)。在这种视觉遮挡场景下,手腕摄像头由于受到手臂运动的限制而无效。©️【深蓝具身智能】编译
Vision in Action (ViA)系统,首次让机器人具备了类似人类的主动感知能力。在三个复杂的双臂操作任务中,ViA相比传统方案实现了高达45%的性能提升。本文将具体介绍这一成果的实现过程。
我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
现有机器人的"视觉盲区"
目前绝大多数机器人都存在严重的视觉局限性,主要依赖三种配置:
固定的第三人称摄像头、手腕摄像头,或者有限自由度的颈部摄像头。
这些配置在处理简单环境的任务时可能足够,但在面对现实世界中普遍存在的视觉遮挡和复杂场景时就显得力不从心。
-
固定摄像头的问题在于视角受限,无法根据任务需求动态调整观察角度;
-
手腕摄像头虽然能跟随手臂运动,但它的视角完全受制于操作需求,而非感知需求。当机器人需要精确抓取时,手腕摄像头可能正好被遮挡,或者根本看不到目标物体。
▲右腕部摄像头[R]被上层搁板遮挡,导致抓取的视觉线索不足。胸部摄像头[C]由于视角固定,即使配备鱼眼镜头,也无法捕捉到与任务相关的信息。©️【深蓝具身智能】编译
更严重的是"观察不匹配"问题。在数据收集过程中,人类操作者自然地通过头部运动来获取最佳视角,但机器人学习时看到的却是固定或不匹配的视角。这就像让一个人通过别人的眼睛来学习开车——即使模仿得再好,也无法真正掌握驾驶技能。
ViA系统:机器人的"视觉智能"
面对这些挑战,斯坦福大学的研究团队提出了Vision in Action系统。这个系统的核心理念是让机器人像人类一样主动调整视角,而不是被动地接受固定视角的信息。
可以概括为"感知即行动"——让机器人学会在执行任务的同时主动获取相关的视觉信息。
▲VR遥操作对比。[左侧] 传统的RGB流由于RGB数据传输延迟和机器人控制延迟导致运动到光子延迟,经常引起VR晕动症。[右侧] 我们的系统通过以下方式缓解这个问题:(a, e) 从RGBD数据流传输世界坐标系中的3D点云,(b, c) 基于用户最新头部姿态执行实时视图渲染,(d) 异步更新机器人的头部和手臂姿态。这种方法为用户实现了低延迟的视点更新。©️【深蓝具身智能】编译
创新突破一:6自由度的"机器人脖子"设计
ViA系统的第一个创新是硬件设计。研究团队没有试图复制人类复杂的生物力学结构,而是采用了一个更加实用的方案——使用现成的6自由度机器人手臂作为机器人的"脖子"。
这个设计看似简单,实际上非常巧妙。传统的2自由度颈部设计虽然简单,但运动范围严重受限,无法实现人类般的灵活视角调整。而6自由度机器人手臂作为颈部,不仅提供了足够的运动范围,还能实现复杂的组合运动。更重要的是,这种设计使用现成的硬件组件,避免了复杂的定制开发,大大降低了成本和技术门槛。
创新突破二:异步VR遥操作——解决延迟难题
ViA系统的第二个重大创新是异步VR遥操作界面。这个创新解决了VR机器人遥操作中的一个根本性问题——延迟导致的晕动症。
在传统的VR遥操作系统中,人类的头部运动直接控制机器人摄像头的运动。但这种直接控制会因为机器人的物理延迟(通常在几十到几百毫秒)导致严重的晕动症。
ViA的解决方案是引入中间3D场景表示,实现渲染和物理运动的解耦。系统使用RGB-D数据构建实时的3D点云,然后基于人类操作者的最新头部姿态立即渲染新视图,而不需要等待机器人摄像头的物理移动。
人类操作者可以立即看到视角变化的效果(延迟小于7毫秒),而机器人则异步地更新其头部姿态。在用户研究中,这种方法将晕动症评分从3.375降低到2.0,并获得了75%用户的偏好。
创新突破三:共享观察空间——让机器人真正"看懂"人类策略
ViA系统的第三个核心创新是共享观察空间的遥操作方法。传统的机器人学习方法中,人类演示时看到的和机器人学习时使用的往往是不同的视角,导致观察不匹配问题。
ViA通过让人类操作者使用与机器人相同的观察空间,即看到机器人看到的内容,彻底解决了这个问题。这样,系统能够完整地捕获人类在不同任务阶段的感知策略:在搜索阶段如何扫视环境,在操作阶段如何聚焦关键区域,在遇到遮挡时如何主动调整视角。
▲任务定义。三个多阶段任务,突出了主动感知在日常场景中的关键作用。
· [左侧] 第三人称视图,红色箭头表示头部运动,蓝色箭头表示手臂运动。
· [中间] 跨任务阶段的主动头部摄像头视图(上排),以及机器人动作的第三人称视图(下排)。
· [右侧] 测试场景,包括袋子任务的训练和测试物体,以及后两个任务的不同测试配置。
260个演示用于训练。对于评估,我们固定了锅的位置,测试了10种不同的青柠和锅垫配置,每种配置测试两次,总共20次运行。©️【深蓝具身智能】编译
三大复杂任务验证ViA能力
任务一:从包中取物——交互式感知
第一个任务是从包中取出指定物品。机器人需要完成三个阶段:首先打开包,然后探头观察包内情况找到目标物品,最后精确地将物品取出。
,时长00:24
这个任务的挑战在于,包内的物品完全被遮挡,机器人无法通过静态观察获得任何有用信息。它必须主动与环境交互(打开包),然后动态调整视角(探头观察)才能看到目标物品。
实验结果显示,ViA在这个任务上几乎达到了100%的成功率,而传统的胸部和手腕摄像头组合的成功率仅为60%左右。
任务二:拥挤环境中的杯子重排——视角切换
第二个任务要求机器人在拥挤的多层货架环境中找到杯子,用右手取出,交给左手,然后放置到隐藏在另一个货架下方的托盘上。这个任务的核心挑战是视角切换:杯子可能位于货架的上层或下层,而目标托盘隐藏在视线之外。
,时长00:50
ViA在这个任务上达到了80%的成功率,相比传统方案的35%有显著提升。通过分析机器人的头部运动轨迹,研究人员发现ViA成功学会了人类演示中的搜索策略:先检查下层,如果没找到再检查上层。
任务三:精确物体对齐——双手协调与精密操作
第三个任务要求机器人找到工作台上的石灰并放入锅中,然后用双手抓起锅,精确地对齐到三脚架上。这个任务综合考验了机器人的搜索能力、双手协调能力和精密操作能力。
,时长01:17
在这个任务中,ViA展现出了出色的长期规划和精确控制能力。它能够进行长时间的主动搜索来定位石灰,然后协调双手完成复杂的操作序列。
ViA系统性能全面解析
摄像头配置:更多不等于更好
研究团队进行了详细的对比实验,结果揭示了一个反直觉的发现:增加更多摄像头并不能提升性能,反而可能带来负面影响。
当研究人员将ViA的单一主动头部摄像头与"主动头部+双手腕摄像头"配置进行比较时,后者的平均性能实际上下降了18.33%。深入分析后发现,主动头部摄像头已经能够提供足够的任务相关信息,而额外的手腕摄像头往往提供的是冗余或噪声信息,在数据相对有限的情况下可能导致过拟合。
▲策略学习摄像头设置对比。[ViA] 使用单个主动头部摄像头,动态调整其视点以捕获任务相关的视觉信息(例如,找到隐藏在架子内的杯子)。相比之下,[手腕和胸部摄像头] 策略由于视觉遮挡经常失败。例如,在杯子任务中,右手腕摄像头的视图被上层架子挡住,导致抓取的视觉线索不足。胸部摄像头由于其固定视点也无法捕获任务相关信息,即使配备了鱼眼镜头。©️【深蓝具身智能】编译
与传统的"胸部+手腕摄像头"配置相比,ViA的优势更加明显。在杯子重排任务中,右手腕摄像头经常被上层货架完全遮挡,而固定的胸部摄像头由于视角限制根本看不到目标物体。
▲策略学习摄像头设置对比结果。我们报告了三个任务的分阶段成功率,以展示我们的主动头部摄像头[ViA] 与两个基线配置的有效性对比:[主动头部和手腕摄像头] 和 [胸部和手腕摄像头]。©️【深蓝具身智能】编译
视觉表示的关键作用:预训练
在视觉表示的比较实验中,ViA使用的DINOv2预训练视觉编码器展现出了明显的优势。相比从头训练的ResNet-18和原始点云方法(DP3),DINOv2能够提供更强的语义理解能力。
▲策略学习视觉表示对比结果。我们报告了三个任务的分阶段成功率,以展示我们的方法[ViA] 与两个基线方法的有效性对比:[ResNet-DP] 和 [DP3]。©️【深蓝具身智能】编译
在石灰与锅的任务中,ViA能够进行长时间的主动搜索来定位石灰,而DP3基线经常出现"幻觉"现象,错误地将场景中的某个区域识别为目标物体。这些结果强调了视觉先验知识在复杂感知任务中的重要性。
ViA系统的核心算法
ViA系统的核心是一个基于扩散策略的视觉运动学习框架。在每个时间步,策略网络接收来自主动头部摄像头的RGB图像观察以及包含颈部、左臂、右臂末端执行器姿态和夹持器宽度的23维本体感知状态。
系统使用DINOv2预训练ViT提取384维分类令牌作为视觉场景的紧凑语义表示。策略输出未来16步的动作序列,但只执行前8步,这种设计在动作平滑性和响应性之间找到了很好的平衡。
▲ViA能够学习针对三个复杂、多阶段双手操作任务的稳健视觉运动策略。©️【深蓝具身智能】编译
ViA采用了两阶段的课程学习策略。第一阶段的多图像定位训练让模型学会基本的空间关系理解,第二阶段的开放式指令微调则训练模型理解和执行复杂的多模态指令。
总结
范式转变:从被动观察到主动感知
ViA系统的成功标志着机器人视觉领域的重要范式转变。传统的机器人视觉系统基本上是被动的,而ViA引入的主动感知范式让机器人成为主动的信息搜集者,学会了在执行任务的过程中主动寻找所需的视觉信息。
技术影响:多模态机器人控制
从技术发展的角度来看,ViA系统为多模态机器人控制开辟了新的研究方向。它证明了视觉、运动和认知的深度融合是可能的,验证了端到端学习在复杂机器人任务中的可行性。
虽然ViA系统取得了令人瞩目的成功,但研究团队也指出了当前方法的局限性。在硬件方面,未来可能需要更加轻量化和专门化的颈部设计。在软件方面,随着3D/4D场景重建技术的发展,未来的系统有望提供更加逼真的视觉体验。
结语:迈向真正智能机器人的关键一步
ViA系统通过让机器人学会"主动看世界",解决了机器人感知中的一个根本性问题。三大核心创新每一个都可以独立应用到其他机器人系统中,产生更广泛的影响:机器人不再是执行预定程序的机械设备,而是能够主动感知、学习和适应的智能伙伴。
原文链接:斯坦福重大突破|首次让机器人具备类人的「主动感知」能力,双臂操作任务中性能提升45%!