当前位置: 首页 > news >正文

Deep Reinforcement Learning for Robotics翻译解读

在这里插入图片描述

a. 机器人能力

1 单机器人能力(Single-robot competencies)

  • 运动能力(Mobility)
    • 行走(Locomotion)
    • 导航(Navigation)
  • 操作能力(Manipulation)
    • 静态操作(Stationary manipulation)
    • 移动操作(Mobile manipulation_MoMa):将运动与操作结合

2 人机交互(Human–robot interaction):机器人与人类实时协作、交流
3 多机器人交互(Multirobot interaction):多个机器人之间的协同

b. 问题建模(Problem Formulation)

  • 强化学习基本模型的要素:
    • 状态空间
    • 动作空间
    • 奖励函数
    • 智能体与环境的交互过程

c. 解决策略(Solution Approach)

  • 训练方式:
    • 在线训练(环境实时交互)
    • 离线数据集(offline dataset)
    • 专家演示(expert demonstration)
  • 学习过程:
    • 经验元组
    • 学习模型 / 策略网络(learned model / policy network)
  • 推理方式:
    • 规划式策略(planning policy)
    • 反应式策略(reactive policy)

d. 现实世界成熟度(Level of Real-World Success)

| 等级     | 描述                             |
|----------|----------------------------------|
| Level 5  | 已部署于商业化产品               |
| Level 4  | 在多种真实条件下验证             |
| Level 3  | 在受限真实条件下验证             |
| Level 2  | 在多样化实验室环境下验证         |
| Level 1  | 在受限实验室环境下验证           |
| Level 0  | 仅在仿真环境中验证               |


Problem Formulation

即如何为所研究的机器人能力构建最优控制策略的数学框架。在机器人任务中,强化学习问题通常被建模为:

  • 部分可观马尔可夫决策过程(POMDP):用于单智能体强化学习(single-agent RL);
  • 去中心化部分可观马尔可夫过程(Dec-POMDP):用于多智能体强化学习(Multiagent RL, MARL)任务。

a) 动作空间(Action Space)

动作空间定义了智能体的输出控制信号类型。可细分为三类:

  • 低层动作(Low-level actions):如关节空间命令或电机控制信号;
  • 中层动作(Mid-level actions):如任务空间中的位移或姿态目标;
  • 高层动作(High-level actions):如带有时间延展性的任务序列命令或子程序调用(subroutines)。

b) 观测空间(Observation Space)

观测空间描述了智能体对环境状态的感知方式,主要包括:

  • 高维观测(High-dimensional observations):如图像、激光雷达点云等原始传感器输入;
  • 低维状态向量(Low-dimensional state estimates):如通过估计器或先验模型获得的简化状态表示。

c) 奖励函数(Reward Function)

奖励信号是强化学习的核心驱动因素。根据其反馈密度,可以分为:

  • 稀疏奖励(Sparse reward):只有在完成特定目标后才给出奖励;
  • 密集奖励(Dense reward):在任务过程中持续给出反馈,以鼓励或惩罚某些行为倾向。


Solution Approach

a) 模拟方式(Simulator Usage)
  • Zero-shot sim-to-real transfer:完全基于模拟训练,直接迁移至真实环境,无需真实数据微调;
  • Few-shot sim-to-real transfer:模拟训练为主,辅以少量真实环境微调;
  • 无模拟器学习(learning directly offline or in the real world):完全在真实世界或离线数据集上进行训练,未使用模拟器。

b) 基于模型学习(Model Learning)

分析是否使用机器人交互数据对系统的**动力学模型(transition dynamics)**进行建模,分为:

  • Model-based RL:学习显式模型,用于预测状态转移;
  • Model-free RL:不使用或隐式使用环境模型;
  • 部分建模(Partial modeling):仅对部分系统或任务阶段建模。

c) 专家示范使用(Expert Usage)

是否引入专家策略(expert policy)或专家数据(如人类演示、oracle 策略)以加速学习过程。方法包括:

  • 行为克隆(Behavior Cloning)
  • 模仿学习(Imitation Learning)
  • 奖励塑形(Reward Shaping)等

d) 策略优化方式(Policy Optimization)
  • 规划方法(Planning-based):如模型预测控制(MPC)等;
  • 离线RL(Offline RL)
  • 异策略RL(Off-policy RL):如 DDPG、TD3、SAC;
  • 同策略RL(On-policy RL):如 PPO、TRPO。

e) 策略 / 模型表示方式(Policy/Model Representation)
  • 多层感知器(Multilayer Perceptrons, MLP)
  • 卷积神经网络(Convolutional Neural Networks, CNN)
  • 循环神经网络(Recurrent Neural Networks, RNN)
  • 图神经网络、Transformer等新型架构

图源:Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes,Chen Tang1


文章转载自:
http://astir.apjjykv.cn
http://bacillicide.apjjykv.cn
http://arboreal.apjjykv.cn
http://choreatic.apjjykv.cn
http://berberis.apjjykv.cn
http://beseechingly.apjjykv.cn
http://acronichal.apjjykv.cn
http://ambrosial.apjjykv.cn
http://cannoneer.apjjykv.cn
http://capeador.apjjykv.cn
http://briskly.apjjykv.cn
http://allusion.apjjykv.cn
http://bullionism.apjjykv.cn
http://anachronism.apjjykv.cn
http://burglary.apjjykv.cn
http://cartoner.apjjykv.cn
http://aposematic.apjjykv.cn
http://cao.apjjykv.cn
http://aniline.apjjykv.cn
http://carbonium.apjjykv.cn
http://aigrette.apjjykv.cn
http://casserole.apjjykv.cn
http://binate.apjjykv.cn
http://annealing.apjjykv.cn
http://barycenter.apjjykv.cn
http://apf.apjjykv.cn
http://bidialectal.apjjykv.cn
http://aneuria.apjjykv.cn
http://absorbable.apjjykv.cn
http://bounce.apjjykv.cn
http://www.dtcms.com/a/114014.html

相关文章:

  • 【Python使用】嘿马云课堂web完整实战项目第3篇:增加数据,修改数据【附代码文档】
  • Python菜鸟教程(小程序)
  • UE5把动画导出为视频格式
  • CentOS 7上配置SQL Server链接其他SQL Server服务器
  • 【HTML】纯前端网页小游戏-戳破彩泡
  • 算法刷题记录——LeetCode篇(2.3) [第121~130题](持续更新)
  • 【嵌入式系统设计师】知识点:第2章 嵌入式系统硬件基础知识
  • Latex语法入门之数学公式
  • 【群晖CPU异常占用原因及解决办法】synoscgi_SYNO.Core.System.ProcessGroup_1_list
  • risc-V学习日记(3):编译与链接
  • MySQL 安全与权限管理:数据库的城堡守卫系统
  • DPDK核心优化技术总结
  • 如何在 Linux 上安装 Python
  • leetcode104 二叉树的最大深度
  • Spring Boot中自定义注解的创建与使用
  • C语言编译和链接错题
  • IDEA/WebStrom操作之commit前批量清除console.log()与debugger
  • Java基础 4.5
  • Fortran 中读取 MATLAB 生成的数据文件
  • 基于SpringBoot的养老院信息管理系统(源码+数据库)
  • Java的Selenium的特殊元素操作与定位之模态框
  • 7-9 趣味游戏
  • Ubuntu-安装redis
  • 【Kubernetes】ConfigMap 和 Secret 的作用是什么?它们如何影响应用配置?
  • d202545
  • 【MediaPlayer】基于libvlc+awtk的媒体播放器
  • April Fools Day Contest 2025 A-F(没有E) 题解
  • 软件工程面试题(二十八)
  • [ 计算机网络 ] | HTTP协议(一)
  • MySQL:查询