当前位置: 首页 > news >正文

LangWBC:基于端到端学习的语言导向型人形机器人全身控制

25年4月来自伯克利分校的论文“LangWBC: Language-directed Humanoid Whole-Body Control via End-to-end Learning”。

通用人形机器人有望与人类进行直观的交互,从而无缝融入日常生活。自然语言是实现这一目标最便捷的媒介。然而,将语言转化为人形机器人的全身运动仍然是一项重大挑战,这主要是由于语言理解与物理动作之间存在鸿沟。本文提出了一种端到端的、语言导向的策略,用于在真实世界中控制人形机器人的全身运动。该方法结合强化学习和策略蒸馏,使得单个神经网络能够直接理解语言指令并执行相应的物理动作。为了增强运动的多样性和组合性,引入条件变分自编码器(CVAE)结构。最终的策略能够根据语言输入实现灵活多样的全身行为,并在各种运动之间实现平滑过渡,从而适应语言变化并产生新的运动。通过大量的仿真和真实世界实验验证该方法的有效性和泛化能力,证明其稳健的全身控制能力。

LangWBC 如图所示:
请添加图片描述

LangWBC 是一个端到端的框架,它联合建模高级语言指令和低级物理动作,使机器人能够直接根据语言指令执行复杂的全身运动。
首先训练一个与语言无关的教师策略,使其学习并跟踪各种人体动作。然后,用 CVAE 学生策略将这些符合物理规律的动作与语言输入对齐,形成一个统一的潜空间,该空间捕捉语言和动作的联合分布。这个潜空间有助于泛化、平滑插值和无缝行为转换。同时,通过使用行为克隆训练 CVAE,将优先的教师策略迁移到仅基于本体感觉输入的学生策略,从而利用板载传感器实现零样本仿真到真实环境的迁移,而无需额外训练。

如图展示 LangWBC 框架的概览:
请添加图片描述

运动追踪教师策略

该教师策略旨在专门用于追踪复杂的人体运动,而无需语言理解。教师策略的训练过程包括两个阶段:运动重定向和运动追踪。

  1. 运动重定向:为了确保运动捕捉轨迹在运动学上可行,以便教师策略进行追踪,基于 Levenberg-Marquardt (LM) 算法 [26] 应用逆运动学 (IK) 进行运动重定向。将重定向问题建模为一个非线性最小二乘优化问题,该问题旨在最小化机器人和运动捕捉关键点之间的位置和姿态误差,同时引入平滑性约束以确保帧之间的自然过渡。该优化问题使用带有关节限制约束的 LM 算法求解,从而得到与原始运动捕捉数据高度匹配的运动学上可行的运动轨迹。

  2. 运动跟踪:教师策略的主要目标是在不依赖语言信息的情况下,精确跟踪重新定向的运动捕捉轨迹。因此,采用一种简单的神经网络架构,该架构由多层感知器(MLP)组成,层大小分别为 512、256 和 128 个单元。

教师策略可以表示为:

aT_t = πteacher(s_t, sref_t), (1)

其中,s_t 表示机器人状态,包括本体感觉状态和仅在仿真中可用的特权信息(摩擦力、质量、外部扰动和运动特性)[18],sref_t 是参考运动,具体而言,是重定向运动中未来五帧关键点在体坐标系中的位置以及参考关节位置。

特权信息(在 s_t 中)的引入,通过提供关于环境和机器人物理属性的额外上下文信息,增强策略掌握复杂动态技能的能力。动作输出 aT_t 对应于底层 PD 控制器的期望关节位置。对教师策略应用域随机化。

由于 MoCap 数据集包含高度敏捷的运动,这些运动在训练初期难以追踪,因此包含整个数据集通常会导致梯度方差过大和收敛速度缓慢。为了提高训练效率,设计一个运动课程,逐步增加运动的复杂性,使策略能够逐步适应更具挑战性的运动。

将运动分为两个难度级别:
a) 简单运动:静态或准静态运动,通常以低速运动为特征。
b) 困难运动:需要更动态的全身协调敏捷运动,包括突然转弯或快速奔跑等动作。

训练从简单的动作开始,随着跟踪性能的提高,逐步增加难度较大的动作。通过这种训练方式,教师策略能够学习执行各种动作所需的广泛物理技能。

用近端策略优化(PPO)[33] 来训练教师策略,以最小化机器人实际运动与参考运动之间的差异。为了增强学习策略的对称性,还引入基于对称性的数据增强方法和一个额外的对称性损失函数。

具体来说,对于每个状态-动作对(s_t, aT_t),通过左右镜像生成其镜像对应物(sm_t, a^T, m^_t)。

增强后的训练目标函数可以表示为:

L_teacher = L_PPO + λ_sym L_sym, (2)

其中 λ_sym 为权重系数,L_sym 用于增强镜像状态的策略输出一致性,即

L_sym =E_s_t∼D[||πteacher(s_t)−M(πteacher(sm_t ))||2], (3)

这里,M(·) 表示动作的镜像操作。这种对称性约束有助于策略学习更平衡、更自然的运动,同时降低训练样本的复杂度。跟踪奖励机制总结于下表。教师策略的运行频率为 50 Hz。

请添加图片描述

语言导向的学生策略

为了使机器人能够理解并执行自然语言指令,设计一种基于CVAE的学生策略,该策略仅使用语言输入和本体感觉读取,即可将文本指令和物理动作编码到一个统一的潜空间中。

学生策略的输入包含两部分:

  1. 文本描述嵌入:用CLIP文本编码器[30]将输入的自然语言指令ctext转换为固定长度的嵌入向量:

vtext_t = f_CLIP (ctext_t). (4)

该嵌入向量捕捉文本指令的语义含义。

  1. 本体感觉观测历史:并不像教师策略那样提供完整的特权状态,而是仅向学生策略提供本体感觉观测值o_t,其中包含关节位置、关节速度、基座线速度、基座角速度和投影重力。输入一系列历史观测和动作数据,以 10 Hz 的频率在 2 秒的时间窗口内进行采样,从而得到包含 20 个步骤的输入-输出对轨迹。

编码器处理拼接后的文本和观测输入,生成潜高斯分布的参数,输出均值向量 μ 和对角协方差矩阵 σ。该架构通过潜空间对给定文本指令的机器人运动条件分布进行建模,其中文本嵌入作为条件信号来塑造潜分布。在训练过程中,用标准的重参数化技巧对潜向量 z 进行采样:

请添加图片描述

其中 ⊙ 表示逐元素乘法,πstudent_enc. 是学生编码器,πstudent_dec. 表示解码器。这种重参数化方法允许梯度在采样过程中流动。解码器随后将采样后的潜向量 z_t 以及最新的状态观测值输出动作。用层数分别为 2048、1024 和 512 的多层感知器 (MLP) 作为编码器,并使用层数分别为 512、1024 和 2048 的 MLP 作为解码器。在推理过程中,直接使用编码分布的均值 μ_t 作为潜向量,从而省略采样步骤以确保确定性行为。学生策略与教师策略采用相同的域随机化方法。

采用数据集聚合 (DAgger) 算法 [32],利用语言标签从教师策略训练学生策略。训练目标遵循变分下界:
请添加图片描述

其中 D_KL 为 KL 散度算子,λ_KL 用于平衡行为克隆中的重构质量与潜空间的结构正则化。

训练过程包含五个步骤:

  1. 数据收集:模拟 1024 个并行环境。在每个时间步,学生策略都会被赋予语言指令及其历史观测值。

  2. 教师动作查询:对于学生遇到的每个状态,通过查询教师策略获得相应的最优动作。

  3. 经验缓冲区构建:将收集的学生观测值和教师动作插入到 1024 × 512(500,000)个状态-动作对的缓冲区中。

  4. 损失计算:在训练初期,学生策略会产生较大的累积误差,导致教师策略偏离其训练分布。为了缓解这个问题,学生策略不再跟踪绝对位置,而是跟踪相对于过去位置的位移。设 p_t 为机器人在时间 t 的初始位置,∆p_t = p_t − p_t−∆t 表示其在时间间隔 ∆t 内的位移,∆p_ref,t = p_ref,t − p_ref,t−∆t 表示参考位移。机器人的跟踪目标变为最小化自身位移与参考位移之间的误差:
    请添加图片描述

这可以减轻与参考运动的偏差,并保持教师示范的质量。

  1. 策略更新:用公式 (8) 中的损失函数更新学生模型。用 1024 × 64 的批大小和 1 × 10⁻⁵ 的学习率,每次迭代进行一个 epoch。然后,用学生模型的动作来模拟环境。

重复迭代过程,学生模型逐步学习复制教师的行为,同时理解语言输入和自身的观察历史。学生模型的策略运行频率为 50 Hz。


多样化的人形机器人动作

为了学习多样化的动作,利用 HumanML3D 数据集 [9] 训练教师策略,该数据集提供带有文本描述的人体动作捕捉数据。在部署过程中,用 AMD Ryzen 9 CPU 进行推理。如图所示,机器人能够成功响应自然语言指令,执行各种上肢和下肢动作,包括向不同方向行走、转身、做出手势以及执行更复杂的全身运动,同时还能有效应对诸如重踢和推搡等外部扰动。

请添加图片描述

通过这些演示,该框架展现零样本仿真-到-真实环境的迁移能力,通过统一的网络有效地解决两个核心挑战——生成多样化的、符合语言规范的动作,同时在真实世界条件和扰动下保持稳健的控制。

请添加图片描述

http://www.dtcms.com/a/601375.html

相关文章:

  • 网站建设 国外无需下载的网站
  • 技术支持 贵阳贵阳网站建设wordpress主题图片
  • 域名注册商怎么查南宁优化网站网络服务
  • 文山城乡建设部网站首页东莞做网站优化
  • CSS 动画与变换属性详解
  • 11.12 LeetCode 题目汇总与解题思路
  • 【代码审计】RuoYi-4.7.34.7.8 定时任务RCE 漏洞分析
  • 数学图论的艺术:解码最小公倍数图中的连通奥秘
  • 如何有效解决Windows 11界面卡顿问题,提升操作流畅度
  • 网站开发iso9001有哪些网页游戏网站
  • nginx安装配置、故障处置、性能优化
  • 网上商城互联网网站开发网站建设流程效果
  • 商品案例-组件封装(vue)
  • 新视角看 js 的数据类型
  • PySide6 + QML - QSerialPort01 - 扫描操作系统上有效的串口
  • 【前端面试】HTML篇
  • Next.js第四章(路由导航)
  • 从jsp打开一个html,怎么把jsp的某些参数传递给html
  • 谷歌google官方网站网站开发 书籍
  • 北京网站备案公司安徽观元建设有限公司网站
  • 若依plus请求加解密
  • PHP Filter:深入了解其功能与实现
  • Linux基础指令(简易版)
  • 农田灌区监测设备:赋能现代农业的精准感知与智能调控
  • 中山 灯饰 骏域网站建设专家百度关键词推广帝搜软件
  • 自己怎么做 优惠券网站西京一师一优课建设网站
  • CST电动车EMC仿真(二)——电机控制器MCU的EMC仿真
  • WPP Media(群邑)DOOH 解决方案 重构数字户外广告价值
  • 基于SpringBoot+Vue的美容美发在线预约系统的设计与实现【附源码】
  • 数字化转型改变了什么?从技术底层到业务本质的深度重构