当前位置: 首页 > news >正文

论文解读:交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一)

宇树机器人多姿态起立控制强化学习框架论文解析

《Learning Humanoid Standing-up Control across Diverse Postures》

论文来源: 上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学
发布时间: 2025年2月(第一版),2025年4月(第二版)
实际部署: Unitree G1人形机器人


📋 目录

  • 一、论文概况
  • 二、技术方法详解
  • 三、核心创新点
  • 四、实验结果与评估
  • 五、技术影响与展望

一、论文概况

1.1 研究背景与挑战

核心问题: 人形机器人从倒地姿态站起来的能力(起立控制)对实现跌倒恢复等功能至关重要。

现有方法的局限性:

方法类型优势局限性
传统轨迹跟踪动作合理,在仿真中有效依赖手工设计,对扰动敏感,部署困难
强化学习方法灵活性高,建模假设少动作剧烈不稳定,真实部署困难

1.2 HoST框架概述

HoST(Humanoid Standing-up Control) 是一个从零开始训练的强化学习框架,具备以下核心特点:

🎯 主要特点:

  • 多评论架构 + 课程式训练 → 提升适应性
  • 动作平滑正则化 + 隐式速度限制 → 抑制抖动
  • 零微调部署 → 直接在Unitree G1上运行
  • 多场景验证 → 室内外环境均表现稳定

1.3 技术创新亮点

创新点技术方案效果
多姿态适应多地形训练 + 向上牵引力支持多种初始姿态起立
训练稳定性多评论强化学习架构优化不同奖励维度
动作平滑性正则化 + 速度约束减少剧烈动作
sim-to-real领域随机化技术提升迁移能力

二、技术方法详解

2.1 问题建模:马尔可夫决策过程(MDP)

2.1.1 MDP五元组定义

人形机器人起立任务被建模为有限时长的MDP:

M = ⟨S, A, T, R, γ⟩
元素含义具体内容
S状态空间机器人本体感知信息
A动作空间关节目标位置变化量
T状态转移函数物理仿真引擎
R奖励函数多维度奖励设计
γ折扣因子长期奖励权衡
2.1.2 训练目标

最优策略学习:

π* = argmax E_πθ[∑γᵗ·rₜ]

算法选择: PPO(Proximal Policy Optimization)

  • ✅ 大规模并行训练稳定性好
  • ✅ 基于宇树官方框架:unitree_rl_gym/legged_gym + RSL-RL/PPO

2.2 观察空间设计

2.2.1 本体感知信息

状态向量构成:

观察项符号来源维度
机体角速度ωₜIMU传感器3D
姿态角度rₜ, qₜIMU(roll, pitch)2D
关节位置pₜ编码器23D
关节速度ṗₜ编码器23D
上步动作aₜ₋₁历史记录23D
缩放系数β配置参数1D
2.2.2 时间上下文增强

历史状态融合:

  • 📊 引入过去5个时间步的状态信息
  • 🎯 增强接触感知能力(如判断是否触地)
  • 💡 提供更强的时间上下文信息

技术实现: class LeggedRobot(BaseTask).compute_observations()

2.3 动作空间与控制

2.3.1 PD控制器架构

设计理念: 强化学习专注于"决策去哪里",PD控制器负责"如何安全地到达"

强化学习策略
动作输出 aₜ
目标位置计算
PD控制器
关节扭矩 τₜ
机器人执行
2.3.2 控制流程

1. 目标位置计算:

pᵈₜ = pₜ + β·aₜ

2. PD控制律:

τₜ = Kp(pᵈₜ - pₜ) - Kd·ṗₜ

3. 参数说明:

  • Kp, Kd: PD控制器增益参数
  • β ∈ (0, 1]: 动作缩放因子(隐式速度限制)
  • 维度: 23个自由度对应23维动作空间
2.3.3 PD控制器优势
优势说明
安全性避免直接扭矩输出,减少硬件损坏风险
稳定性物理直觉的控制行为,天然稳定特性
可调性仅需调节Kp、Kd两个参数
迁移性仿真与真实机器人行为一致性高

三、核心创新点

3.1 多评论强化学习架构

技术方案:

  • 🎯 多个评论网络 分别优化不同奖励维度
  • 📈 解耦优化 提升训练稳定性
  • ⚖️ 平衡收敛 避免单一奖励主导

3.2 课程化训练策略

训练阶段设计:

阶段训练内容技术手段
初期基础起立动作向上牵引力辅助
中期多姿态适应多地形随机化
后期鲁棒性提升干扰注入训练

3.3 动作平滑化技术

实现方法:

  1. 动作正则化 - 限制动作幅度
  2. 速度约束 - 通过β因子隐式控制
  3. 连续性保证 - 时间步间动作平滑过渡

3.4 领域随机化

随机化参数:

  • 🌍 物理参数: 质量、摩擦、关节刚度
  • 🎮 环境参数: 地形、重力、风力
  • 🤖 机器人参数: 传感器噪声、执行器延迟

相关文章:

  • LeetCode - 199. 二叉树的右视图
  • 动态元素绑定事件总失效?通过AI 对话框的开发,详解绑定逻辑!
  • stm32wle5 lpuart DMA数据不接收
  • 机器人模仿学习调研(二)
  • 使用Spring Cloud Stream 模拟生产者消费者group destination的介绍(整合rabbitMQ)
  • Spring AMQP
  • 什么是日内融?日内融交易系统开发全解析
  • crackme006
  • 在WSL2的Ubuntu镜像中安装Docker
  • modelscope下载gguf格式模型
  • libfmt: 现代C++的格式化工具库介绍与酷炫功能
  • 中国高等职业教育(专科)专业划分
  • 算法从0到1 Day 17 二叉树part 06
  • Axure设计案例之词云图设计
  • 【Linux】进程间通讯-消息队列
  • 基于 Three.js 的 3D 模型快照生成方案
  • Spring Boot SQL数据库功能详解
  • Python_day49cbam模块介绍
  • Yolo11改进策略:Block改进|FCM,特征互补映射模块|AAAI 2025|即插即用
  • 积分商城小程序分销裂变系统框架设计
  • 网站开发微信端/如何让自己的网站快速被百度收录
  • 咸宁网站建设解决方案/网站运营主要做什么
  • 微信开发商是谁/搜seo
  • 西安专业做网站的公司/重庆seo代理计费
  • 企业营销型网站费用/深圳网络营销网站设计
  • 如何优化关键词搜索排名/百度关键词优化是什么意思