当前位置：首页 > news >正文

KungfuBot——基于物理约束的人形全身控制PBHC，用于学习高动态技能打拳或跳舞(即RL下的动作模仿和运控)

news 2025/9/22 13:29:36

前言

昨天618，我司「七月在线」同事朝阳为主力，我打杂，折腾了整整一天，终于可以通过VR摇操宇树G1了——当然，摇操是为了做训练数据的采集，从而方便下一步的模型(策略)训练，最终实现机器人自主做各种任务

然灵巧手还没到货(顺带吐槽一下，现在的灵巧手都太贵了，有没有性价比高的或者合作呢，如有，欢迎私我)，临时再打印个二指夹爪也得等

那未来这几天搞啥呢？那就搞运动吧，如此，便关注到最新出来的两个工作

一个是GMT: General Motion Tracking forHumanoid Whole-Body Control
另一个则是本文要解读的KungfuBot

顺带和后者KungfuBot的一位作者沟通发现，一者他们团队同学也读过我的博客，二者他导师还是我认识多年的朋友，也是缘分啊

加之他们开源的力度我个人觉得挺不错的，故我也打算和长沙具身团队其中的一个人形小组复现下该KungfuBot
故写本文一方面算是对复现的指导，二方面也是对他们工作的一个宣传，一举多得何乐不为

PS，如有具身某业务场景的定制开发需求，可以直接私我需求，如想做技术交流则私我一两句简介，邀你进：七月具身：人形二开交流大群

第一部分 KungfuBot

1.1 引言与相关工作

1.1.1 引言

如原KungfuBot论文所说，人形机器人由于具有人类般的形态结构，具备模仿人类在执行不同任务时各种行为的潜力[1-Humanoid locomotion and manipulation: Current progress and challenges in control, planning, and learning]

随着动作捕捉（Mo-Cap）系统和动作生成方法的不断进步，已经产生了大量的动作数据集
2- Motiongpt: Human motion as a foreign language
3-Move as you say interact as you can: Language-guided human motion generation with scene affordance
这些数据集涵盖了大量带有文本描述的人类活动[4-Amass: Archive of motion capture as surface shapes]

因此，使人形机器人学习全身控制以模仿人类行为成为了一个有前景的方向
然而，控制高维度的机器人动作以实现理想的人类表现仍然面临巨大挑战。主要困难之一在于，从人类采集的动作序列往往不符合仿人机器人的物理约束，包括关节极限、动力学和运动学
5-Exbody2
6-ASAP

因此，直接通过强化学习（RL）训练策略以最大化奖励（如负跟踪误差）通常难以获得理想的策略，因为理想解可能并不存在于解空间中
近期，已经提出了多种基于强化学习（RL）的全身控制框架用于动作跟踪
7-Exbody
8-Humanplus
这些方法通常将参考运动学动作作为输入，并输出用于类人机器人模仿的控制动作

为了解决物理可行性问题，H2O和 OmniH2O [9,10] 通过训练有特权的模仿策略去除不可行的动作，从而生成干净的动作序列数据集

ExBody [7] 通过语言标签（如“挥手”和“行走”）筛选，构建了一个可行的动作数据集。Exbody2 [5] 在所有动作上训练初始策略，并利用跟踪误差来衡量每个动作的难度。然而，训练初始策略并寻找最优数据集的成本较高

此外，在训练过程中，对于难以跟踪的动作，仍缺乏合适的容错机制。因此，先前的方法只能跟踪低速且平滑的动作
最近，ASAP [6] 引入了多阶段机制，并学习了残差策略来补偿仿真到现实的差异，从而降低了跟踪敏捷动作的难度。然而，ASAP 包含总共四个训练阶段，并且残差策略的训练需要 MoCap 系统记录真实机器人状态

在本文中，来自1 中国电信(TeleAI)、2 上交、3 华东理工大学、4 哈工大、5 上科大的研究者提出了一种基于物理的人形机器人运动控制方法（PBHC）

其对应的论文为：KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills
其对应的作者为：
Weiji Xie* 1,2、Jinrui Han* 1,2、Jiakun Zheng* 1,3、Huanyu Li1,4、Xinzhe Liu1,5
Jiyuan Shi1、Weinan Zhang2、Chenjia Bai† 1、Xuelong Li† 1
其对应的项目地址为：https://kungfu-bot.github.io/
其对应的GitHub为：TeleHuman/PBHC

具体而言，该方法采用两阶段框架来应对敏捷且高度动态运动所带来的挑战

在运动处理阶段
首先从视频中提取运动数据，并通过在人体模型内估算物理量来建立基于物理的指标，从而筛选出人类动作，剔除超出物理极限的运动
随后，计算运动的接触掩码，进行运动修正，并最终利用微分逆运动学将处理后的动作重定向到机器人上
在运动模仿阶段，作者提出了一种自适应运动跟踪机制，通过跟踪因子调整跟踪奖励。由于参考动作存在不完善以及需要实现平滑控制，完全跟踪高难度动作在实际中不可行，因此作者根据跟踪误差对不同动作自适应调整跟踪因子

随后，作者又提出了一个双层优化(Bi-Level Optimization，BLO)[11- An introduction to bilevel optimization: Foundations and applications in signal processing and machine learning]来求解最优因子，并设计了自适应更新规则，在训练过程中在线估算跟踪误差，以动态优化跟踪因子

此外，作者在两阶段框架的基础上，设计了一种非对称的actor-critic结构用于策略优化。Critic采用奖励向量化技术，并利用特权信息提升价值估计的准确性，而actor仅依赖本地观测

1.1.2 相关工作

首先，对于人形动作模仿

机器人动作模仿旨在从人类动作中学习逼真且自然的行为[21,23]。尽管已有多个包含多样动作的数据集[24,25,4]，但由于人类与类人机器人在物理结构上存在显著差异[6,26]，类人机器人无法直接学习这些多样化的行为。同时，大多数数据集缺乏物理信息，例如对机器人策略学习至关重要的足部接触标注[27,28]。因此，作者采用基于物理的动作处理方法进行动作筛选和接触标注
在获得参考动作后，类人机器人学习全身控制策略以与仿真器交互[29,30]，目标是获得接近参考动作的状态轨迹[31,32]。然而，学习此类策略极具挑战性，因为机器人需要对高维自由度进行精确控制，以实现稳定且真实的运动[7,8]
近期的研究采用基于物理的动作筛选和强化学习来学习全身控制策略[5,10]，并通过仿真到现实迁移实现真实世界的适应[33]。但由于缺乏对高难度动作的容错机制，这些方法仅能跟踪相对简单的动作
其他研究还结合了遥操作[34,35]以及上下半身的独立控制[36]，但可能牺牲了动作的表现力。相比之下，KungfuBot提出了一种自适应机制，可针对敏捷动作动态调整跟踪奖励

其次，对于仿人机器人全身控制

传统的仿人机器人方法通常分别为行走和操作学习独立的控制策略

在下半身方面，基于强化学习（RL）的控制器已被广泛应用于学习复杂任务的行走策略，如复杂地形行走[37,38]、步态控制[39]、起身[40,41]、跳跃[42]，甚至跑酷[43,44]。然而，每项行走任务都需要精细的奖励设计，并且难以获得类人的行为[45,46]
相比之下，KungfuBot采用人类动作作为参考，这使机器人更容易获得类人的行为
在上半身方面，各种方法提出了不同的架构来学习操作任务，例如扩散策略[47,48]、视觉-语言-动作模型[49,50,51]、双系统架构[52,53]和世界模型[54,55]
然而，这些方法可能忽视了双臂的协调性

近年来，已经提出了若干全身控制方法，旨在增强整个系统在行走[22,39,34]或执行行走-操作任务[56]时的鲁棒性

与之不同的是，KungfuBot的方法使上下半身拥有相同的目标，即跟踪参考动作，同时下半身仍需在动作模仿中保持稳定并防止跌倒。其他方法通过收集全身控制数据集来训练仿人基础模型[56,57]，但需要大量的轨迹
相比之下，KungfuBot只需少量参考动作即可学习多样化的行为

1.1.3 预备知识：问题表述和参考动作处理

首先，对于问题表述

作者在工作中采用了Unitree G1 机器人[12]，该机器人具有23 个自由度（DoFs）可供控制，不包括每只手腕中的3DoFs。且他们将运动模仿问题表述为一个以目标为条件的强化学习问题，其马尔可夫决策过程为 $\mathcal{M}=\left(\mathcal{S}, \mathcal{A}, \mathcal{S}^{\mathrm{ref}}, \gamma, r, P\right)$ ，其中

$\mathcal{S}$ 和 $\mathcal{S}^{\mathrm{ref}}$ 分别表示人形机器人和参考运动的状态空间
$\mathcal{A}$ 为机器人的动作空间
$r$ 是由运动跟踪和正则化奖励组成的混合奖励函数
$P$ 是依赖于机器人形态和物理约束的转移函数

在每个时间步 $t$

策略 $\pi$ 观察机器人本体感知状态 $\boldsymbol{s}_{t}^{\text {prop }}$ 并生成动作 $a_{t}$ ，其目标是获得下一个状态 $\boldsymbol{s}_{t+1}$ ，该状态跟随参考轨迹 $\left[\boldsymbol{s}_{0}^{\text {ref }}, \ldots, \boldsymbol{s}_{N-1}^{\text {ref }}\right]$ 中的对应参考状态 $\boldsymbol{s}_{t+1}^{\mathrm{ref}}$
动作 $\boldsymbol{a}_{t} \in \mathbb{R}^{23}$ 是用于PD 控制器计算电机扭矩的目标关节位置
且采用了现成的强化学习算法PPO[13]，结合actor-critic架构进行策略优化

其次，对于参考动作处理

对于人体动作处理，Skinned Multi-Person Linear (SMPL) 模型[14] 提供了一个通用的人体动作表示方法，使用三个关键参数：

$\boldsymbol{\beta} \in \mathbb{R}^{10}$ 表示身体形状
$\boldsymbol{\theta} \in \mathbb{R}^{24 \times 3}$ 表示关节的轴-角表示旋转
$\psi \in \mathbb{R}^{3}$ 表示全局平移

这些参数可以通过可微分蒙皮函数 $M(\cdot)$ 映射为一个包含6,890 个顶点的三维网格，形式化表达为 $\mathcal{V}=M(\boldsymbol{\beta}, \boldsymbol{\theta}, \boldsymbol{\psi}) \in \mathbb{R}^{6890 \times 3}$

作者采用人体动作恢复模型从视频中估计SMPL 参数 $(\boldsymbol{\beta}, \boldsymbol{\theta}, \boldsymbol{\psi})$ ，随后进行额外的动作处理

最终得到的SMPL 格式动作通过逆运动学（IK）方法重定向到G1，从而获得用于跟踪的参考动作「The resulting SMPL-format motions are then retargeted toG1 through an Inverse Kinematics (IK) method, yielding the reference motions for tracking purposes」，类似Humanplus论文中的这个图「详见此文《HumanPlus——斯坦福ALOHA团队开源的像人类影子一样的人形机器人：仿真中训小脑HST、真实中训大脑HIT》」

1.2 PBHC的完整方法论

PBHC 的总体流程如图 1 所示『包括三个核心组件：(a) 从视频中提取动作及多步动作处理，(b)基于最优跟踪因子的自适应动作跟踪，(c) 强化学习训练框架及从仿真到现实的部署』

首先，原始的人体视频通过人体运动恢复（HMR）模型处理，生成 SMPL 格式的运动序列
这些序列随后通过基于物理的指标进行筛选，并利用接触掩码进行修正
经过优化的运动数据接着被重定向到 G1 机器人
最后，每条生成的轨迹作为参考动作，用于训练独立的强化学习（RL）策略，随后部署到真实的 G1 机器人上

1.2.1 动作处理流程

作者提出了一种动作处理流程，用于从视频中提取动作以实现人形动作追踪，该流程包括四个步骤：

从单目视频中估算SMPL格式的动作
基于物理的动作滤波
基于接触感知的动作校正
动作重定向

该流程确保了物理上合理的动作能够从视频中转移到人形机器人上，接下来，逐一具体阐述上述流程

第一，从视频中进行运动估计

作者采用 GVHMR [15- World-grounded human motion recovery via gravity-view coordinates] 从单目视频中估算 SMPL 格式的运动。GVHMR 引入了一个与重力方向对齐的重力-视角坐标系，自然地将运动与重力方向对齐，从而消除了仅依赖相机坐标系重建时产生的身体倾斜问题
此外，GVHMR 通过预测足部静止概率，有效减轻了足部滑动伪影，从而提升了运动质量

第二，基于物理的运动筛选

由于HMR 模型在重建过程中存在不准确性以及分布外问题，从视频中提取的运动可能会违反物理和生物力学约束，因此，作者尝试通过基于物理的原则筛选这些运动

以往的研究[16-3d human pose estimation via intuitive physics] 表明，质心（CoM）和压力中心（CoP）之间的接近程度可以指示更高的稳定性，并提出了一种从SMPL 数据中估算CoM 和CoP 坐标的方法
在此基础上，作者计算每一帧中CoM 和CoP 在地面的投影距离，并通过设定阈值来评估稳定性
具体来说，令 $\overline{\boldsymbol{p}}_{t}^{\mathrm{CoM}}=\left(p_{t, x}^{\mathrm{CoM}}, p_{t, y}^{\mathrm{CoM}}\right)$ 和 $\overline{\boldsymbol{p}}_{t}^{\mathrm{CoP}}=\left(p_{t, x}^{\mathrm{CoP}}, p_{t, y}^{\mathrm{CoP}}\right)$ 分别表示第 $t$ 帧中CoM 和CoP在地面的投影坐标， $\Delta d_{t}$ 表示这两个投影之间的距离

作者将一帧的稳定性判据定义为——如下公式1所示
$\Delta d_{t}=\left\|\overline{\boldsymbol{p}}_{t}^{\mathrm{CoM}}-\overline{\boldsymbol{p}}_{t}^{\mathrm{CoP}}\right\|_{2}<\epsilon_{\mathrm{stab}}$

其中， $\epsilon_{\text {stab }}$ 表示稳定性阈值

然后，给定一个N 帧的动作序列，令 $\mathcal{B}=\left[t_{0}, t_{1}, \ldots, t_{K}\right]$ 为满足上述公式(1) 的帧索引递增排序列表，其中 $t_{k} \in[1, N]$

若满足以下两个条件，则认为该动作序列是稳定的：
(i) 边界帧稳定性： $1 \in \mathcal{B}$ 且 $N \in \mathcal{B}$
(ii) 最大不稳定间隔：连续不稳定帧的最大长度必须小于阈值 $\epsilon_{\mathrm{N}}$ ，即 $\max _{k} t_{k+1}-t_{k}<\epsilon_{\mathrm{N}}$ 。基于该标准，明显无法保持动态稳定性的动作将从原始数据集中剔除

第三，基于接触掩码的运动校正

为了更好地捕捉运动数据中的足-地接触，作者通过分析连续帧之间的踝关节位移，基于零速度假设[17- Capturing and inferring dense full-body human-scene contact, 18- Reducing
footskate in human motion reconstruction with ground contact constraints]，来估计接触掩码

令 $\boldsymbol{p}_{t}^{\text {l-ankle }} \in \mathbb{R}^{3}$ 表示时刻 $t$ 左踝关节的位置， $c_{t}^{\text {left }} \in\{0,1\}$ 为对应的接触掩码。接触掩码的估计方式如下

$c_{t}^{\text {left }}=\mathbb{I}\left[\left\|\boldsymbol{p}_{t+1}^{\text {l-ankle }}-\boldsymbol{p}_{t}^{\text {l-ankle }}\right\|_{2}^{2}<\epsilon_{\text {vel }}\right] \cdot \mathbb{I}\left[p_{t, z}^{\text {l-ankle }}<\epsilon_{\text {height }}\right]$

其中 $\epsilon_{\mathrm{vel}}$ 和 $\epsilon_{\text {height }}$ 是通过经验选择的阈值，右脚的处理方式类似

为了解决阈值过滤未能消除的轻微悬浮伪影，作者基于估算的接触掩码应用了一个修正步骤

具体而言，如果在第 $t$ 帧任一只脚处于接触状态，则对全局平移施加一个垂直偏移。设 $\psi_{t}$ 表示时刻t的姿态全局平移，则修正后的垂直位置为

$\psi_{t, z}^{\mathrm{corr}}=\psi_{t, z}-\Delta h_{t}$

其中， $\Delta h_{t}=\min _{v \in \mathcal{V}_{t}} p_{t, z}^{v}$ 是帧 $t$ 时SMPL 网格顶点 $\mathcal{V}_{t}$ 中最低的z 坐标。虽然该修正减轻了漂浮伪影，但可能会导致帧间抖动。作者通过应用指数移动平均（EMA）来平滑运动，从而解决这一问题

第四，动作重定向

作者采用一种基于逆向运动学（IK）的方法 [19- Mink: Python inverse kinematics based on MuJoCo]，将处理后的 SMPL 格式动作重定向到G1 机器人。该方法将问题表述为可微分的优化问题，在保证末端执行器轨迹对齐的同时，遵循关节限制
为了增强动作多样性，作者引入了来自开源数据集 AMASS [4] 和 LAFAN [20-Robust motion in-betweening] 的额外数据
这些动作部分通过他们的流程进行处理，包括接触掩码估计、动作校正和动作重定向

1.2.2 自适应动作追踪：指数形式的跟踪奖励、最优跟踪因子、自适应机制

1.2.2.1 指数形式的跟踪奖励

PBHC中的奖励函数（详见附录C.2）由两个部分组成：

任务特定奖励，用于确保对参考动作的精确跟踪
以及正则化奖励，用于提升整体的稳定性和平滑性

任务特定的奖励包括用于对齐关节状态、刚体状态和足部接触掩码的项。除了足部接触跟踪项外，这些奖励均采用如下的指数形式——如下公式4 所示：

$r(x)=\exp (-x / \sigma)$

其中， $x$ 表示跟踪误差，通常以关节角等量的均方误差（MSE）来衡量，而 $\sigma$ 用于控制误差的容忍度，被称为跟踪因子。相比于负误差形式，这种指数形式因其有界性，有助于稳定训练过程，并为奖励权重分配提供了更直观的方法，因此更受青睐

直观来看，当 $\sigma$ 远大于 $x$ 的典型取值范围时，奖励值会保持接近1，并且对 $x$ 的变化变得不敏感
而当 $\sigma$ 过小时，奖励值趋近于0，同样会降低其敏感度
这凸显了合理选择 $\sigma$ 以提升响应性和追踪精度的重要性

该直观理解如图2所示

1.2.2.2 最优跟踪因子

为了确定最优跟踪因子的选择，作者提出一种简化的运动跟踪模型，并将其表述为一个双层优化问题

该表述的直观想法是，应选择跟踪因子 $\sigma$ ，以最小化收敛策略在参考轨迹上的累积跟踪误差。在手动调参的情况下，这通常通过一个迭代过程实现：工程师选择一个 $\sigma$ 值，训练策略，观察结果，并重复这一过程，直到获得令人满意的性能

给定一个策略 $\pi$ ，存在一个长度为 $N$ 的期望跟踪误差序列 $\boldsymbol{x} \in \mathbb{R}_{+}^{N}$ ，其中 $x_{i}$ 表示在第 $i$ 步rollout 过程中期望的跟踪误差
作者并不直接优化策略，而是将跟踪误差序列 $x$ 作为决策变量

这使他们能够将运动跟踪的优化问题重新表述为——如下公式5 所示
$\max _{\boldsymbol{x} \in \mathbb{R}_{+}^{N}} J^{\text {in }}(\boldsymbol{x}, \sigma)+R(\boldsymbol{x})$
其中
$\rightarrow$ 对于公式中的第一部分，内部目标 $J^{\text {in }}(\boldsymbol{x}, \sigma)=\sum_{i=1}^{N} \exp \left(-x_{i} / \sigma\right)$ 是由公式(4) $r(x)=\exp (-x / \sigma)$ 中的跟踪奖励诱导的简化累计奖励
$\rightarrow$ 对于公式中的第二部分，作者引入 $R(\boldsymbol{x})$ 以捕捉除 $J^{\text {in }}$ 以外的所有附加效应，包括环境动态和其他策略目标(如额外奖励)
方程(5)的解 $x^{*}$ 对应于最优策略 $\pi^{*}$ 所引起的误差序列
随后， $\sigma$ 的优化目标是最大化获得的累计负跟踪误差 $J^{\mathrm{ex}}\left(\boldsymbol{x}^{*}\right)=\sum_{i=1}^{N}-x_{i}^{*}$ ，即外部目标，可形式化为以下双层优化问题——如下公式6 所示
$\max _{\sigma \in \mathbb{R}_{+}} J^{\mathrm{ex}}\left(\boldsymbol{x}^{*}\right), \quad \text { s.t. } \quad \boldsymbol{x}^{*} \in \arg \max _{\boldsymbol{x} \in \mathbb{R}_{+}^{N}} J^{\text {in }}(\boldsymbol{x}, \sigma)+R(\boldsymbol{x})$

在额外的技术假设下，可以求解公式(6)，并推导出最优跟踪因子是最优跟踪误差的平均值，如下公式7所示(具体细节见附录A)
$\sigma^{*}=\left(\sum_{i=1}^{N} x_{i}^{*}\right) / N$

1.2.2.3 自适应机制

虽然公式(7)为确定跟踪因子提供了理论指导

但 $\sigma^{*}$ 与 $x^{*}$ 之间的耦合关系导致出现循环依赖，无法直接计算
此外，由于参考动作数据的质量和复杂度各异，选取一个对所有动作场景都适用的单一固定跟踪因子是不现实的
为了解决这一问题，作者设计了一种自适应机制，通过误差估计与跟踪因子调整之间的反馈回路，在训练过程中动态调整 $\sigma$

在该机制中，作者维护了一个关于环境步数的即时跟踪误差的指数移动平均 $\text { (EMA) } \hat{x}$
该EMA 作为当前策略下期望跟踪误差的在线估计值，在训练过程中，这一数值应当接近当前因子 $\sigma$ 下的平均最优跟踪误差 $\left(\sum_{i=1}^{N} x_{i}^{*}\right) / N$

在每一步，PBHC 将 $\sigma$ 更新为当前的 $\hat{x}$ 值，从而形成一个反馈回路，使得跟踪误差的减少导致 $\sigma$ 的收紧。这个闭环过程推动策略的进一步优化，随着跟踪误差的降低，系统收敛到一个最优的 $\sigma$ 值，从而渐近地求解方程(9)，如图3 所示
为了确保训练过程中的稳定性，作者将σ 限制为非递增，并用一个相对较大的值 $\sigma^{\text {init }}$ 进行初始化。更新规则由公式(8) 给出
$\sigma \leftarrow \min (\sigma, \hat{x})$
如图4 所示，这一自适应机制使策略能够在训练过程中逐步提高其跟踪精度

1.2.3 RL训练框架：非对称Actor-Critic、奖励向量化、参考状态初始化、仿真到现实迁移

非对称Actor-Critic。遵循以往的工作[6,21]，引入了时间相位变量 $\phi_{t} \in[0,1]$ ，用于线性表示参考运动的当前进度，其中 $\phi_{t}=0$ 表示运动的开始， $\phi_{t}=1$ 表示运动的结束

actor的观测 $s_{t}^{\text {actor }}$ 包括
$\rightarrow$ 机器人的本体感知 $\boldsymbol{s}_{t}^{\text {prop }}$
而本体感知 $\boldsymbol{s}_{t}^{\text {prop }}=\left[\boldsymbol{q}_{t-4: t}, \dot{\boldsymbol{q}}_{t-4: t}, \boldsymbol{\omega}_{t-4: t}^{\text {root }}, \boldsymbol{g}_{t-4: t}^{\text {proj }}, \boldsymbol{a}_{t-5: t-1}\right]$ ，包括
关节位置 $\mathbf{q}_{t} \in \mathbb{R}^{23}$ 的5 步历史
关节速度 $\dot{\boldsymbol{q}}_{t} \in \mathbb{R}^{23}$
根部角速度 $\boldsymbol{\omega}_{t}^{\text {root }} \in \mathbb{R}^{3}$
根部投影重力 $\boldsymbol{g}_{t}^{\text {proj }} \in \mathbb{R}^{3}$
以及上一步动作 $\boldsymbol{a}_{t-1} \in \mathbb{R}^{23}$

$\rightarrow$ 以及时间相位变量 $\phi_{t}$

critic接收增强观测 $\boldsymbol{s}_{t}^{\text {crtic }}$ ，包括 $\boldsymbol{s}_{t}^{\text {prop }}$ 、时间相位、参考运动位置、根部线速度以及一组随机化物理参数
奖励向量化
为了便于学习具有多个奖励的价值函数，作者将奖励和价值函数向量化为： $\boldsymbol{r}=\left[r_{1}, \ldots, r_{n}\right]$ 和 $\boldsymbol{V}(s)=\left[V_{1}(s), \ldots, V_{n}(s)\right]$ ，遵循Xie 等人[22] 的方法

与将所有奖励聚合为单一标量不同，每个奖励分量 $r_{i}$ 被分配给一个价值函数 $V_{i}(s)$ ，该函数独立地估计回报，由具有多个输出头的critic网络实现。所有价值函数被聚合以计算动作优势。这一设计实现了精确的价值估计，并促进了策略优化的稳定性
参考状态初始化
作者采用参考状态初始化（RSI）[21]，该方法从参考动作的不同时间相位中随机采样，并以此初始化机器人的状态。这一做法有助于并行学习不同的动作阶段，从而显著提升训练效率
仿真到现实迁移
为弥合仿真与现实之间的差距，作者采用领域随机化方法，通过改变仿真环境和人形机器人的物理参数来实现。经过训练的策略会先通过仿真到仿真的测试进行验证，然后直接部署到真实机器人上，实现无需微调的零样本仿真到现实迁移。详细内容见附录C.3