论文速读《VideoMimic:通过视觉模仿实现人形机器人感知控制》
项目链接:https://www.videomimic.net/
论文链接:https://arxiv.org/abs/2505.03729
0. 简介
人类学习新动作的方式非常直观——我们只需观察他人如何完成任务,然后自己尝试模仿。无论是坐在椅子上还是爬楼梯,我们都能通过观察快速掌握技能,并轻松适应各种新环境。而对于人形机器人,传统的控制方法往往需要手动编程或精心设计的奖励函数,缺乏这种自然的环境适应能力。
来自UC Berkeley的研究团队最新提出的VideoMimic系统,彻底改变了这一现状。这套"真实-到-模拟-到-真实"的流程,可以从普通的人类视频中学习,并赋予机器人根据环境上下文自动调整行为的能力。只需一段智能手机拍摄的随意视频,VideoMimic即可帮助人形机器人掌握复杂的环境交互技能,如上下楼梯、坐在不同椅子上、或在复杂地形上稳定行走。
1. 主要贡献
VideoMimic的主要创新点包括:
-
端到端视频到机器人技能转换:首次实现从单目RGB视频到完整人形机器人控制策略的全流程转换,无需手动调整或动作捕捉设备
-
上下文感知控制:机器人能够根据环境几何(如楼梯高度、椅子形状)自动选择合适的行为,而无需显式任务标签或环境脚本
-
联合人体-场景重建:突破传统方法仅重建人体或场景的局限,实现度量尺度上的一致性联合重建
-
统一策略框架:单一策略可同时处理多种技能(行走、爬楼、坐下等),仅通过环境感知和目标方向实现动态切换
-
真实机器人验证:在Unitree G1人形机器人上成功部署,展示了稳定、可重复的上下文控制能力
2. 相关工作
2.1 腿式机器人的技能学习
现有的腿式机器人运动控制研究主要遵循两条路线:
基于奖励的方法:这类方法在模拟环境中使用无模型强化学习,通过手动设计的目标函数(如速度跟踪、运动自然性等)来塑造机器人行为。得益于大规模并行物理引擎的发展,这一方法在四足和人形机器人上实现了敏捷的运动控制,且无需依赖运动数据。然而,每种新行为都需要调整用户定义的奖励函数和环境脚本,缺乏通用性和可扩展性。
数据驱动的方法:这类方法通过模仿参考动作(如动作捕捉片段或单目视频),训练模拟角色跟踪这些动作,并将训练好的策略迁移到真实机器人上。近期研究将腿部运动定义为下一个token预测任务,基于人体数据预训练策略,表现出色。虽然模仿方法避免了复杂的奖励工程,但现有研究通常假设地面平坦或使用手动设计的环境,缺乏对复杂上下文的感知和适应能力。即使是模拟人-场景交互的动画系统,也依赖于专业的动作捕捉平台,难以扩展到真实世界的多样环境。
2.2 基于图像和视频的人体与场景重建
单目视频人体重建的早期方法主要利用深度神经网络回归人体的姿态和形状,这些方法在相对于摄像机的坐标系中工作,适用于渲染、动作识别或单人追踪,但未定义全局轨迹,因此缺乏环境上下文感知。一些开创性工作如SfV需要手动调整全局尺度,甚至假设摄像机是静态的,严重限制了应用通用性。
近期方法将人体运动先验与Structure from Motion (SfM)/SLAM技术相结合,以恢复具有度量意义的轨迹,但仍然只对人体和摄像机进行建模,忽略了环境几何。通用场景解析的进展使得能够通过多视角线索或学习的先验知识实现联合人体-场景重建,但这些系统尚未在实际机器人上验证。一些并行研究尝试在后处理或模拟过程中引入物理约束,但往往牺牲可扩展性换取真实感。
3. 核心算法
VideoMimic的核心算法可分为三个主要阶段:真实场景重建、仿真策略学习和真实机器人部署。
3.1 阶段一:真实场景重建
VideoMimic首先从单目RGB视频中提取人体姿势和场景几何,并进行联合优化,确保物理一致性。具体流程如下:
图2:VideoMimic真实到模拟流程。随意拍摄的手机视频作为唯一输入。我们首先重建每一帧的人体运动和2D关键点,同时生成密集的场景点云。高效的优化算法联合对齐运动和点云,使用人体高度先验恢复统计上准确的度量尺度,并基于人体相关点注册人体轨迹。然后将点云转换为网格,与重力对齐,并将运动重定向到重建场景中的人形机器人。这产生了世界坐标系下的轨迹和可直接用于模拟器的网格,作为策略训练的输入。
1. 视频预处理
- 使用Grounded SAM2检测并追踪视频中的人物
- 应用VIMO模型预测SMPL人体模型参数(姿态、形状)
- 使用ViTPose提取2D关键点,BSTRO回归足部接触信号
- 通过MegaSaM或MonST3R进行单目结构光运动(SfM)重建,获取原始场景点云
2. 联合优化人体与场景
- 变量包括人体全局平移γ1:T、全局方向φ1:T、局部姿态θ^1:T和场景点云尺度α
- 利用SMPL人体模型的身高作为度量参考,解决单目重建的尺度歧义问题
- 优化目标结合3D关节距离损失、2D投影损失和时间平滑正则化项
- 使用Levenberg-Marquardt求解器在GPU上完成优化
3. 生成模拟数据
- 使用GeoCalib将重建结果与真实世界重力方向对齐
- 将噪声密集的点云转换为轻量级网格,提供有意义的几何约束
- 将优化后的人体轨迹重定向到人形机器人骨骼上,考虑关节限制、接触和碰撞约束
这一流程能够处理各种挑战性视频,包括复杂运动、多样环境,甚至可以同时重建多个人物,并支持第一人称RGB-D渲染,为后续的策略学习提供高质量参考数据。
3.2 阶段二:仿真策略学习
获取重建数据后,VideoMimic通过多阶段强化学习训练出一个基于环境上下文的控制策略。训练分为四个关键阶段:
图3:仿真中的策略训练。我们的强化学习训练流程始于一个动作捕捉轨迹数据集。随后,我们引入高度图观测,并在各种环境中跟踪来自视频的全身参考轨迹。接着,我们蒸馏出一个仅以机器人根部位置为条件的策略。然后,使用相同的简化观测集通过强化学习直接微调该策略。我们的流程由三个目标驱动:(a)生成快速且忠于原始视频演示的动作;(b)确保观测在真实世界环境中可获取;©训练一个通用策略,将所有视频演示的知识提炼到一个单一模型中,使其适用范围超越训练集。
1. 动作捕捉预训练
- 使用LAFAN动作捕捉数据集对策略进行预训练
- 观察包括机器人关节位置、关节速度、角速度、重力向量和历史动作
- 策略接收目标关节角度、目标根滚动/俯仰和期望根方向作为条件信号
- 奖励函数基于数据驱动的跟踪项(链接位置、关节位置、关节速度、足部接触)
2. 场景条件跟踪
- 从预训练检查点初始化策略,引入环境感知能力
- 将11×11网格的高度图通过残差连接投影到策略的潜空间
- 在重建的地形上执行DeepMimic式跟踪,随机采样不同运动
- 继续接收运动特定的跟踪条件(目标关节角度、根部姿态和方向)
3. 策略蒸馏
- 使用DAgger算法,蒸馏出一个不依赖目标关节角度或根部姿态观测的策略
- 新策略只接收本体感受、以躯干为中心的高度图和目标根方向
- 简化观察空间,提高策略的通用性和鲁棒性
4. 强化学习微调
- 在简化的观察空间下进行额外的PPO训练
- 解决因移除关节目标可能导致的次优行为问题
- 增强策略在噪声和扰动下的恢复能力
该训练流程采用IsaacGym模拟器实现大规模并行训练,同时随机化物理参数(质量、摩擦力、延迟和传感器噪声)以增强策略鲁棒性。最终得到的统一策略可以根据高度图和目标方向自动选择合适的行为模式。
3.3 策略学习
基于从视频片段和场景中获取的运动学参考,我们的策略学习流程生成一个上下文条件策略,该策略能够在适当的环境提示下执行参考中的技能。图4概述了我们的流程。
图4:我们Real-to-Sim管道的多功能能力。VideoMimic实现了(i) 对具有挑战性运动和多样化环境的互联网视频的稳健跟踪,(ii) 同时重建和重新定向多个人的动作,以及(iii) 用于具身感知的自我视角RGB-D渲染——尽管在我们当前的策略中未使用,但它突显了该框架在不同输入和任务中的更广泛适用性。
我们使用Rudin等人实现的近端策略优化(PPO)算法来训练策略。学习过程在IsaacGym模拟器中进行。我们的策略同时基于本体感受和目标相关的观察。本体感受输入包括机器人关节位置 q q q、关节速度 q ˙ q̇ q˙、角速度 ω ω ω、投影重力向量 g g g和先前动作 a t − 1 a^{t-1} at−1的历史记录;在实践中,我们使用5帧的历史长度。此外,策略还接收本地目标观察:目标关节角度、目标根部滚动和俯仰角度,以及期望的根部方向,这通过机器人当前根部位置与目标根部之间的相对x-y偏移和偏航角指定,所有这些都在机器人的局部参考系中表示。
对于以高度图为条件的策略,我们还提供躯干周围的高程图。这表示为一个11×11的网格,以 0.1 米的间隔进行采样,用于捕捉局部地形几何形状。最后,评判器会接收额外的特殊观测值。
批处理跟踪:系统利用 DeepMimic [1] 的批处理变体来学习使用强化学习来模仿动作。除了类似于 Tessler [53] 的动作负载平衡之外,还实现参考状态初始化 [1],从而提升成功率较低的动作的权重。
奖励:强化学习奖励完全围绕数据驱动的追踪术语设计——具体来说,包括链接和关节位置、关节速度以及脚部接触信号——以便将原始演示转化为物理上可执行的动作,且只需进行少量手动调整。有两个目标:(1) 减少对通常通过奖励工程引入人工构建先验知识的依赖;(2) 确保最终动作的物理可行性。这两个目标可能会发生冲突:由于参考轨迹纯粹是来自人类的运动数据,精确的追踪可能会导致非物理运动。
因此,引入动作速率惩罚以及其他几个惩罚标准,旨在阻止对模拟器物理机制的利用。将按照以下描述的阶段来训练策略。
4. 实验
将控制器部署在 23-DoF Unitree G1 人形机器人上,并以 50 Hz 的频率在机上运行。按照 [58],设置相对较低的关节增益 Kp = 75,以避免过快或过硬的行为——这有助于避免机器人与椅子或楼梯等物体发生剧烈接触时发生过度剧烈的接触。分别使用 Fast-lio2 [59] 和概率地形测绘 [60] 实时计算高度图。从人类操作员那里获取操纵杆目标。包括策略运行在内的所有操作都在机上运行。实验显示,从策略运行到真实部署的关键因素包括:(1)放宽相对于参考运动的终止公差,以及(2)在训练期间注入真实物理扰动。
图5:该策略在真实机器人上执行各种技能:穿越复杂地形、站立和坐下。所有这些技能都包含在一个单一的策略中,该策略根据其高度图和操纵杆方向输入的上下文决定该做什么。第一行:策略在坐下后从坐姿站起。第二行:策略走上楼梯。第三行:策略走下楼梯。底行:策略走过路缘并进入粗糙地形。
5. 结论
VideoMimic为人形机器人的技能学习提供了一种新范式,不再依赖手动编程或专业设备,而是直接从日常视频中学习。未来研究方向包括扩展到更复杂的交互(如物体操作)、整合更多感知模态,以及优化实时性能以适应动态变化的环境。