当前位置：首页 > news >正文

讲座|人形机器人多姿态站起控制HoST及宇树G1部署

news 2025/7/21 17:38:32

目的：基于learnningbase 不需要依赖于预定义好的轨迹（No Predefined Motion），并且具有human size，High DoF，Posture Diversity

把剧烈运动进行了2阶段分解，但是第一阶段无法学到比较‘优雅’的policy
Framework Overview

Challenge1：violent and osillatory motion剧烈且抖动 motion

action bounds 和 scaler

动作边界约束（结合 PD 控制器公式）；

平滑正则化（L₂C₂损失函数）。

动作边界 + PD：给 RL 的 “激进指令” 套上 “减速带”，让控制器的目标更温和，避免 “猛踩油门 / 刹车”；
平滑正则化：给 RL 的 “决策逻辑” 加上 “记忆”，让动作变化更连贯，避免 “朝三暮四”。
两者结合，就能让机器人（或智能体）的运动从 “抽风式乱动” 变成 “稳稳当当的可控运动”。

Challenge2：要是把motion speed限制的非常小，RLAgent探索非常难.所以需要“trade-off” 指 “权衡取舍”（两者间需平衡，优化一方往往以牺牲另一方为代价）。“探索新策略（exploration）” 和 “运动速度（motion speed）” 无法同时最优：

想多探索（让智能体试新动作）→ 动作可能很激进 → 运动容易失控（速度、姿态乱套）；
想稳速度（动作平缓）→ 探索不足 → 学不到更优策略。

动作边界课程学习（Rescaler）：逐步放宽动作幅度限制（如从 “动作幅度 ×1” 过渡到 “×0.25” ，让智能体先稳后大胆探索）；
拉力辅助探索：训练初期施加外力（如图示 “200N→0N” ，类似 “辅助轮”，帮智能体保持姿态，逐步撤力自主探索）。

Challenge3：奖励设计繁琐（需协调多目标） + 策略优化难，由于站起这个动作是whole body且与地形接触

Task Reward Style Reward Regulariation Reward Post-task Reward

任务奖励（Wtask=2.5）：定义起身核心目标（头部高度、基座朝向）；
风格奖励（Wstytle=1）：约束关节角度 / 姿态，规范起身动作；
正则奖励（Wregu=0.1）：惩罚剧烈运动（加速度、力矩突变等），保障平稳；
任务后奖励（Wpost=1）：起身成功后，约束基座运动 / 姿态，维持稳定。

奖励拆分：总奖励 = 任务、风格、正则、后任务奖励的加权和（w 为权重）；
优化：通过多评价器损失和策略损失，平衡多目标，降低奖励设计成本。

Challenge4：Sim-to-Real Transfer

评估指标维度：1）success rate 2）feet movement 3)smoothness 4)energy
Comparison methods 1)crtitics 2)exploration strategies 3)motion constraints 4)histrory length

真机轨迹观测和仿真轨迹观测发现脚踝轨迹diff很大，最后用宇树官方脚踝的几个point进行仿真

Suggestion：be patient to dirty things，a tiny point might be the key

1. Domain Randomization（领域随机化）

定义：仿真中故意随机改变环境 / 模型参数（如摩擦、质量、光照），让策略适应真实世界的不确定性。
举例：
仿真训练机器人走路时，随机让地面摩擦系数在 0.3~0.8 之间变化。这样，机器人不会只 “学懂” 某一种地面（比如光滑瓷砖），真实世界里不管是塑胶跑道（摩擦高）还是冰面（摩擦低），都能走稳。

2. CoM Offset（质心偏移）

定义：机器人质心（Center of Mass，CoM） 的实际位置与仿真假设位置的偏差（因零件误差、装配偏差等导致）。
举例：
仿真里假设机器人质心在身体正中间，但真实机器人因电池安装偏左，质心实际左移 2cm。如果仿真没考虑这种偏移，训练出的 “起身策略” 会让机器人往左边倒（因为质心计算错误，平衡控制失效）。

3. Torque Noise（力矩噪声）

定义：仿真中给关节力矩添加随机干扰，模拟真实电机的力矩输出误差（比如电机老化、电压波动导致力矩不准）。
举例：
仿真里让关节力矩随机 ±5% 波动（比如指令力矩是 10N・m，实际输出 9.5~10.5N・m）。训练出的策略会 “预留冗余”，即使真实电机力矩不准，机器人仍能稳定控制动作（比如走路时步幅不会突然失控）。

4. Control Delay（控制延迟）

定义：仿真中模拟真实系统的信号延迟（如传感器数据传输、控制器计算的时间差）。
举例：
真实机器人的控制指令需要 50 毫秒 才能执行（传感器→控制器→电机的延迟）。仿真里加入这 50ms 延迟，训练出的策略会 “提前预判”（比如更早调整关节力矩），避免延迟导致的动作滞后（比如本该及时刹车，却因为延迟摔倒是非）。