当前位置：首页 > news >正文

Whole-body Humanoid Robot Locomotion with Human Reference

news 来源：原创 2025/6/12 2:41:40

Whole-body Humanoid Robot Locomotion with Human Reference

研究动机
解决方案
技术路线
- 基于AMP从人类参考运动中学习
- 人形机器人端到端强化学习
实验结果

研究动机

传统机器人控制算法通常依赖对环境的准确建模，这在鲁棒性和通用性方面会带来重大挑战，尤其是在未知或动态变化的环境中，传统控制算法的性能可能会显著下降，限制了它们在更广泛的应用场景中的实用性。此外，对准确建模的依赖需要高水平的专业知识来构建和维护这些模型，增加了开发和调试的复杂性。
传统机器人控制算法在适应性、灵活性和用户友好性方面尽管表现出色，但在特定环境中的卓越性能也限制了它们的应用，促使研究人员探索替代方法以克服这些障碍，设计更智能和更具适应性的机器人控制策略。

解决方案

介绍了全新的人形机器人Adam，并提供新的方法和实验验证，用于人形机器人的学习、适应和优化，为人形机器人研究和开发开辟了一条新途径。

开发并详细描述了一种创新的仿生人形机器人 Adam，其四肢不仅活动范围接近人类，还在成本低廉和维护方便方面具有显著优势。
设计并验证新的全身模仿学习框架，用于人形机器人，该框架有效地解决了人形机器人强化学习训练中遇到的复杂奖励函数设置问题，大大减少Sim2Real差距，并提高人形机器人的学习能力和适应性。

技术路线

基于AMP从人类参考运动中学习

模仿学习框架基于AMP，其中判别器 $D$ 输出从智能体采样得到的状态转移与从参考演示采样得到的状态转移之间的相似度。为确保具有相似状态转移的机器人能够执行相似的运动风格，选择输入判别器的观测值至关重要。判别器观测值包含每个驱动关节的位置、速度以及人形机器人的双手和双脚的位置。在每个时间步中，从演示中采样状态转移并输入至判别器中，以获取专家预测巡视，从而使判别器能够区分它们。

$\mathcal{L}_{expert}=\mathbb{E}_{(o_t^D,o_{t+1}^D)\sim \mathcal{D}}[(D(o_t^D,o_{t+1}^D)-1)^2]$

从策略中采样的状态转移也同样计算：

$\mathcal{L}_{policy}=\mathbb{E}_{(o_t^D,o_{t+1}^D)\sim \pi}[(D(o_t^D,o_{t+1}^D)+1)^2]$

对参考轨迹上的梯度进行惩罚以稳定训练，

$\mathcal{L}_{GP}=\mathbb{E}_{(o_t^D,o_{t+1}^D)\sim \pi}[||\bigtriangledown \mathcal{D}(o_t^D,o_{t+1}^D)||^2]$

总的AMP损失为：

$\mathcal{L}_{AMP}=\frac{1}{2}\mathcal{L}_{expert}+\frac{1}{2}\mathcal{L}_{policy}+\lambda_{GP}\mathcal{L}_{GP}$

AMP损失函数指导判别器对样本进行评分，对于真实的参考动作给出接近+1的分数，而对于由策略生成的动作则接近-1。策略的目标是生成足够逼真的动作，使判别器给出更高的分数，以此展示其接近模仿参考动作的能力。随后，策略训练中的模仿奖励公式表示为

$r_{I}=max[0,1-\frac{1}{4}(D(o_t^D,o_{t+1}^D)-1)^2]$

人形机器人端到端强化学习

同时，参考运动中的运动方向通常仅限于局部坐标系。为了便于在世界坐标系下控制、生成更加自然的步伐，并在复杂地形上实现从仿真到现实的更有效过渡，我们引入了协调任务奖励。任务奖励由三部分组成：命令奖励、周期奖励和正则化奖励。命令奖励迫使机器人沿命令方向单独移动，其公式为

$r_{com}=\sum \lambda_i exp(-\omega(|v_{des}^i-v_t^i|)),i\in(x,y,yaw)$

为促进达到期望的步态性能，引入与模仿奖励相一致的周期性奖励。这种方法自然地促进了机器人保持稳定步态。然而，如果希望步态具有变异性，建议省略此奖励函数。本文通过摆动相（脚在空中移动）和支撑相（脚牢固地着地）来制定周期性奖励。每个周期性奖励项由系数 $\alpha_i$ 、相位指示符 $I_i(\phi)$ 、相位奖励函数 $V_i(s_t)$ 组成， $\phi$ 表示周期时间， $i$ 表示相位是支撑相还是摆动相。摆动相和支撑相按顺序排列，并通过设定比例 $\rho \in(0,1)$ 共同覆盖整个周期时长。这种配置确保摆动相持续的时间相当于 $\rho$ ，紧接着是支撑相，其持续时间为 $1-\rho$ 。单脚奖励如下所示：

$r_{per}=\sum \alpha_i \mathbb{E}[I_i(\phi)]V_i(s_t)$
$V_{stance}(s_t)=exp(-10F_f^2)$
$V_{swing}(s_t)=exp(-200v_f^2)$

其中 $F_f$ 是每个足部的正压力， $v_f$ 是每个足部的速度。为建模相位指示器 $I_i(\phi)$ ，使用Von Mises分布的数学期望。相位指示器如图所示。

在这里插入图片描述

相位指示器形式化为

$Q_1=I_{stance}(\phi+\theta_{left})$
$Q_2=I_{stance}(\phi+\theta_{right})$

其中 $\theta_{left}$ 和 $\theta_{right}$ 是左腿和右腿在周期时间中的偏移。为获得更自然的步伐风格，计算脚速度、高度差以及摆动相位中的对称性的奖励。脚速度跟踪奖励形式化为

$q^i=clip(\frac{\phi}{\rho}-0.5,0,1)$
$r(s_t)=16(q^iv_f^i)^2,0\le q_i \le0.6$

脚速跟踪奖励鼓励机器人在摆动阶段进行更高的脚速。高度差奖励为

$q^i=\frac{\phi}{\rho}$
$\delta h=h_f^i - h_f^{-i}-0.02$
$r(s_t)=2exp(-25|\delta h|),0\le q_i \le 0.3$

其中 $h_f^i$ 是脚尖的高度， $i$ 为另一只脚的高度。此函数的目的是仅在步态周期的某些早期阶段基于脚的高度差计算奖励。对称奖励如下所示

$d_t=p_t^{left}-p_t^{right}$
$tf=(\mathbb{E}[I_{left}(\phi)]>0.5)\bigwedge (\mathbb{E}[I_{right}(\phi)]>0.5)$
$\delta f_t=tf \cdot d_t+\neg tf\cdot \delta f_{t-1}$
$\delta l_t=\neg tf \cdot \delta f_t + tf \cdot d_t$
$r(s_t)=3.3tfexp(-10||d_t+\delta l_t||_1)$