当前位置：首页 > news >正文

Deep Reinforcement Learning for Robotics翻译解读

news 2025/7/17 10:07:10

在这里插入图片描述

a. 机器人能力

1 单机器人能力（Single-robot competencies）

运动能力（Mobility）
- 行走（Locomotion）
- 导航（Navigation）
操作能力（Manipulation）
- 静态操作（Stationary manipulation）
- 移动操作（Mobile manipulation_MoMa）：将运动与操作结合

2 人机交互（Human–robot interaction）：机器人与人类实时协作、交流
3 多机器人交互（Multirobot interaction）：多个机器人之间的协同

b. 问题建模（Problem Formulation）

强化学习基本模型的要素：
- 状态空间
- 动作空间
- 奖励函数
- 智能体与环境的交互过程

c. 解决策略（Solution Approach）

训练方式：
- 在线训练（环境实时交互）
- 离线数据集（offline dataset）
- 专家演示（expert demonstration）
学习过程：
- 经验元组
- 学习模型 / 策略网络（learned model / policy network）
推理方式：
- 规划式策略（planning policy）
- 反应式策略（reactive policy）

d. 现实世界成熟度（Level of Real-World Success）

| 等级     | 描述                             |
|----------|----------------------------------|
| Level 5  | 已部署于商业化产品               |
| Level 4  | 在多种真实条件下验证             |
| Level 3  | 在受限真实条件下验证             |
| Level 2  | 在多样化实验室环境下验证         |
| Level 1  | 在受限实验室环境下验证           |
| Level 0  | 仅在仿真环境中验证               |

Problem Formulation

即如何为所研究的机器人能力构建最优控制策略的数学框架。在机器人任务中，强化学习问题通常被建模为：

部分可观马尔可夫决策过程（POMDP）：用于单智能体强化学习（single-agent RL）；
去中心化部分可观马尔可夫过程（Dec-POMDP）：用于多智能体强化学习（Multiagent RL, MARL）任务。

a) 动作空间（Action Space）

动作空间定义了智能体的输出控制信号类型。可细分为三类：

低层动作（Low-level actions）：如关节空间命令或电机控制信号；
中层动作（Mid-level actions）：如任务空间中的位移或姿态目标；
高层动作（High-level actions）：如带有时间延展性的任务序列命令或子程序调用（subroutines）。

b) 观测空间（Observation Space）

观测空间描述了智能体对环境状态的感知方式，主要包括：

高维观测（High-dimensional observations）：如图像、激光雷达点云等原始传感器输入；
低维状态向量（Low-dimensional state estimates）：如通过估计器或先验模型获得的简化状态表示。

c) 奖励函数（Reward Function）

奖励信号是强化学习的核心驱动因素。根据其反馈密度，可以分为：

稀疏奖励（Sparse reward）：只有在完成特定目标后才给出奖励；
密集奖励（Dense reward）：在任务过程中持续给出反馈，以鼓励或惩罚某些行为倾向。

Solution Approach

a) 模拟方式（Simulator Usage）

Zero-shot sim-to-real transfer：完全基于模拟训练，直接迁移至真实环境，无需真实数据微调；
Few-shot sim-to-real transfer：模拟训练为主，辅以少量真实环境微调；
无模拟器学习（learning directly offline or in the real world）：完全在真实世界或离线数据集上进行训练，未使用模拟器。

b) 基于模型学习（Model Learning）

分析是否使用机器人交互数据对系统的**动力学模型（transition dynamics）**进行建模，分为：

Model-based RL：学习显式模型，用于预测状态转移；
Model-free RL：不使用或隐式使用环境模型；
部分建模（Partial modeling）：仅对部分系统或任务阶段建模。

c) 专家示范使用（Expert Usage）

是否引入专家策略（expert policy）或专家数据（如人类演示、oracle 策略）以加速学习过程。方法包括：

行为克隆（Behavior Cloning）
模仿学习（Imitation Learning）
奖励塑形（Reward Shaping）等

d) 策略优化方式（Policy Optimization）

规划方法（Planning-based）：如模型预测控制（MPC）等；
离线RL（Offline RL）
异策略RL（Off-policy RL）：如 DDPG、TD3、SAC；
同策略RL（On-policy RL）：如 PPO、TRPO。

e) 策略 / 模型表示方式（Policy/Model Representation）

多层感知器（Multilayer Perceptrons, MLP）
卷积神经网络（Convolutional Neural Networks, CNN）
循环神经网络（Recurrent Neural Networks, RNN）
图神经网络、Transformer等新型架构

图源：Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes，Chen Tang1

文章转载自：
http://astir.apjjykv.cn
http://bacillicide.apjjykv.cn
http://arboreal.apjjykv.cn
http://choreatic.apjjykv.cn
http://berberis.apjjykv.cn
http://beseechingly.apjjykv.cn
http://acronichal.apjjykv.cn
http://ambrosial.apjjykv.cn
http://cannoneer.apjjykv.cn
http://capeador.apjjykv.cn
http://briskly.apjjykv.cn
http://allusion.apjjykv.cn
http://bullionism.apjjykv.cn
http://anachronism.apjjykv.cn
http://burglary.apjjykv.cn
http://cartoner.apjjykv.cn
http://aposematic.apjjykv.cn
http://cao.apjjykv.cn
http://aniline.apjjykv.cn
http://carbonium.apjjykv.cn
http://aigrette.apjjykv.cn
http://casserole.apjjykv.cn
http://binate.apjjykv.cn
http://annealing.apjjykv.cn
http://barycenter.apjjykv.cn
http://apf.apjjykv.cn
http://bidialectal.apjjykv.cn
http://aneuria.apjjykv.cn
http://absorbable.apjjykv.cn
http://bounce.apjjykv.cn

http://www.dtcms.com/a/114014.html

相关文章：

【Python使用】嘿马云课堂web完整实战项目第3篇：增加数据,修改数据【附代码文档】

Python菜鸟教程(小程序)

UE5把动画导出为视频格式

CentOS 7上配置SQL Server链接其他SQL Server服务器

【HTML】纯前端网页小游戏-戳破彩泡

算法刷题记录——LeetCode篇(2.3) [第121~130题](持续更新)

【嵌入式系统设计师】知识点：第2章嵌入式系统硬件基础知识

Latex语法入门之数学公式

【群晖CPU异常占用原因及解决办法】synoscgi_SYNO.Core.System.ProcessGroup_1_list

risc-V学习日记（3）：编译与链接

MySQL 安全与权限管理：数据库的城堡守卫系统

DPDK核心优化技术总结

如何在 Linux 上安装 Python

leetcode104 二叉树的最大深度

Spring Boot中自定义注解的创建与使用

C语言编译和链接错题

IDEA/WebStrom操作之commit前批量清除console.log()与debugger

Java基础 4.5

Fortran 中读取 MATLAB 生成的数据文件

基于SpringBoot的养老院信息管理系统（源码+数据库）

Java的Selenium的特殊元素操作与定位之模态框

7-9 趣味游戏

Ubuntu-安装redis

【Kubernetes】ConfigMap 和 Secret 的作用是什么？它们如何影响应用配置？

d202545

【MediaPlayer】基于libvlc+awtk的媒体播放器

April Fools Day Contest 2025 A-F(没有E) 题解

软件工程面试题（二十八）

[ 计算机网络 ] | HTTP协议(一)

MySQL：查询