当前位置: 首页 > news >正文

机器人强化学习入门学习笔记(二)

       基于上一篇的《机器人强化学习入门学习笔记》,在基于 MuJoCo 的仿真强化学习训练中,除了 PPO(Proximal Policy Optimization)之外,还有多个主流强化学习算法可用于训练机器人直行或其他复杂动作。


🧠 一、常见强化学习算法对比(可用于 MuJoCo)

算法类型特点适合场景
PPO(Proximal Policy Optimization)On-policy稳定、易调参,训练效率适中MuJoCo官方推荐、机器人控制首选
SAC(Soft Actor-Critic)Off-policy探索强、样本效率高多关节复杂任务、稀疏奖励
TD3(Twin Delayed DDPG)Off-policy避免过估计,适合连续控制动作精细控制、稳定性好
DDPG(Deep Deterministic Policy Gradient)Off-policy最早的连续动作算法之一适合学习基础
TRPO(Trust Region Policy Optimization)On-policy稳定但实现复杂PPO的前身,现已较少使用

✅ 推荐顺序(MuJoCo 中的实用性):PPO > SAC > TD3 > DDPG > TRPO


📌 二、原理讲解(简洁易懂)

(1)PPO算法

PPO 是由 OpenAI 提出的,是一种 策略梯度(Policy Gradient)方法的改进版本,它的目标是:

在不让策略变动太大的前提下,最大化策略更新的期望回报。


🧩 核心思想:限制策略更新幅度

策略梯度方法要优化目标函数:

但如果每次更新步长太大,会让策略发散(学崩),所以 PPO 引入了

相关文章:

  • HTML05:超链接标签及应用
  • 永磁同步电机控制算法--基于PI和前馈的位置伺服控制
  • 告别(Python)if elif else错误使用方法
  • 介绍分治、动态规划、回溯分别是什么?有什么联系和区别?给出对象的场景和java代码?
  • 【硬核攻坚】告别CUDA OOM!DeepSeek部署显存瓶颈终极解决方案:三大策略高效落地
  • day04_计算机常识丶基本数据类型转换
  • 15.日志分析入门
  • 架构思维:构建高并发读服务_热点数据查询的架构设计与性能调优
  • 三维重建(二十一)——第二步和第三步
  • 数据集-目标检测系列- 印度人脸 检测数据集 indian face >> DataBall
  • 对于1年来开发的程序化股票交易的做一个总结
  • linux inotify 资源详解
  • 【Qt】配置环境变量
  • 《赤色世界》彩蛋
  • 如何判断node节点是否启用cgroup?
  • Windows 自带删除缓存
  • VTK 数据读取/写入类介绍
  • SpringBoot整合RabbitMQ(Java注解方式配置)
  • android-ndk开发(3): 连接设备到开发机
  • Java面试:微服务与大数据场景下的技术挑战
  • 中年人多活动有助预防阿尔茨海默病
  • 台湾花莲县海域发生5.7级地震,震源深度15公里
  • 党旗下的青春|赵天益:少年确定志向,把最好的时光奉献给戏剧事业
  • 五一“大车流”来了,今日午后G40沪陕高速开始迎来出沪高峰
  • 马上评丨上热搜的协和“4+4”模式,如何面对舆论审视
  • 贵州茅台一季度净利268亿元增长11.56%,系列酒营收增近两成