论文解读:交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一)
宇树机器人多姿态起立控制强化学习框架论文解析
《Learning Humanoid Standing-up Control across Diverse Postures》
论文来源: 上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学
发布时间: 2025年2月(第一版),2025年4月(第二版)
实际部署: Unitree G1人形机器人
📋 目录
- 一、论文概况
- 二、技术方法详解
- 三、核心创新点
- 四、实验结果与评估
- 五、技术影响与展望
一、论文概况
1.1 研究背景与挑战
核心问题: 人形机器人从倒地姿态站起来的能力(起立控制)对实现跌倒恢复等功能至关重要。
现有方法的局限性:
方法类型 | 优势 | 局限性 |
---|---|---|
传统轨迹跟踪 | 动作合理,在仿真中有效 | 依赖手工设计,对扰动敏感,部署困难 |
强化学习方法 | 灵活性高,建模假设少 | 动作剧烈不稳定,真实部署困难 |
1.2 HoST框架概述
HoST(Humanoid Standing-up Control) 是一个从零开始训练的强化学习框架,具备以下核心特点:
🎯 主要特点:
- ✅ 多评论架构 + 课程式训练 → 提升适应性
- ✅ 动作平滑正则化 + 隐式速度限制 → 抑制抖动
- ✅ 零微调部署 → 直接在Unitree G1上运行
- ✅ 多场景验证 → 室内外环境均表现稳定
1.3 技术创新亮点
创新点 | 技术方案 | 效果 |
---|---|---|
多姿态适应 | 多地形训练 + 向上牵引力 | 支持多种初始姿态起立 |
训练稳定性 | 多评论强化学习架构 | 优化不同奖励维度 |
动作平滑性 | 正则化 + 速度约束 | 减少剧烈动作 |
sim-to-real | 领域随机化技术 | 提升迁移能力 |
二、技术方法详解
2.1 问题建模:马尔可夫决策过程(MDP)
2.1.1 MDP五元组定义
人形机器人起立任务被建模为有限时长的MDP:
M = ⟨S, A, T, R, γ⟩
元素 | 含义 | 具体内容 |
---|---|---|
S | 状态空间 | 机器人本体感知信息 |
A | 动作空间 | 关节目标位置变化量 |
T | 状态转移函数 | 物理仿真引擎 |
R | 奖励函数 | 多维度奖励设计 |
γ | 折扣因子 | 长期奖励权衡 |
2.1.2 训练目标
最优策略学习:
π* = argmax E_πθ[∑γᵗ·rₜ]
算法选择: PPO(Proximal Policy Optimization)
- ✅ 大规模并行训练稳定性好
- ✅ 基于宇树官方框架:
unitree_rl_gym/legged_gym
+RSL-RL/PPO
2.2 观察空间设计
2.2.1 本体感知信息
状态向量构成:
观察项 | 符号 | 来源 | 维度 |
---|---|---|---|
机体角速度 | ωₜ | IMU传感器 | 3D |
姿态角度 | rₜ, qₜ | IMU(roll, pitch) | 2D |
关节位置 | pₜ | 编码器 | 23D |
关节速度 | ṗₜ | 编码器 | 23D |
上步动作 | aₜ₋₁ | 历史记录 | 23D |
缩放系数 | β | 配置参数 | 1D |
2.2.2 时间上下文增强
历史状态融合:
- 📊 引入过去5个时间步的状态信息
- 🎯 增强接触感知能力(如判断是否触地)
- 💡 提供更强的时间上下文信息
技术实现:
class LeggedRobot(BaseTask).compute_observations()
2.3 动作空间与控制
2.3.1 PD控制器架构
设计理念: 强化学习专注于"决策去哪里",PD控制器负责"如何安全地到达"
2.3.2 控制流程
1. 目标位置计算:
pᵈₜ = pₜ + β·aₜ
2. PD控制律:
τₜ = Kp(pᵈₜ - pₜ) - Kd·ṗₜ
3. 参数说明:
- Kp, Kd: PD控制器增益参数
- β ∈ (0, 1]: 动作缩放因子(隐式速度限制)
- 维度: 23个自由度对应23维动作空间
2.3.3 PD控制器优势
优势 | 说明 |
---|---|
安全性 | 避免直接扭矩输出,减少硬件损坏风险 |
稳定性 | 物理直觉的控制行为,天然稳定特性 |
可调性 | 仅需调节Kp、Kd两个参数 |
迁移性 | 仿真与真实机器人行为一致性高 |
三、核心创新点
3.1 多评论强化学习架构
技术方案:
- 🎯 多个评论网络 分别优化不同奖励维度
- 📈 解耦优化 提升训练稳定性
- ⚖️ 平衡收敛 避免单一奖励主导
3.2 课程化训练策略
训练阶段设计:
阶段 | 训练内容 | 技术手段 |
---|---|---|
初期 | 基础起立动作 | 向上牵引力辅助 |
中期 | 多姿态适应 | 多地形随机化 |
后期 | 鲁棒性提升 | 干扰注入训练 |
3.3 动作平滑化技术
实现方法:
- 动作正则化 - 限制动作幅度
- 速度约束 - 通过β因子隐式控制
- 连续性保证 - 时间步间动作平滑过渡
3.4 领域随机化
随机化参数:
- 🌍 物理参数: 质量、摩擦、关节刚度
- 🎮 环境参数: 地形、重力、风力
- 🤖 机器人参数: 传感器噪声、执行器延迟