当前位置：首页 > news >正文

机器人强化学习入门学习笔记(二)

news 2025/10/30 10:09:22

基于上一篇的《机器人强化学习入门学习笔记》，在基于 MuJoCo 的仿真强化学习训练中，除了 PPO（Proximal Policy Optimization）之外，还有多个主流强化学习算法可用于训练机器人直行或其他复杂动作。

🧠 一、常见强化学习算法对比（可用于 MuJoCo）

算法	类型	特点	适合场景
PPO（Proximal Policy Optimization）	On-policy	稳定、易调参，训练效率适中	MuJoCo官方推荐、机器人控制首选
SAC（Soft Actor-Critic）	Off-policy	探索强、样本效率高	多关节复杂任务、稀疏奖励
TD3（Twin Delayed DDPG）	Off-policy	避免过估计，适合连续控制	动作精细控制、稳定性好
DDPG（Deep Deterministic Policy Gradient）	Off-policy	最早的连续动作算法之一	适合学习基础
TRPO（Trust Region Policy Optimization）	On-policy	稳定但实现复杂	PPO的前身，现已较少使用

✅ 推荐顺序（MuJoCo 中的实用性）：PPO > SAC > TD3 > DDPG > TRPO

📌 二、原理讲解（简洁易懂）

（1）PPO算法

PPO 是由 OpenAI 提出的，是一种 策略梯度（Policy Gradient）方法的改进版本，它的目标是：

在不让策略变动太大的前提下，最大化策略更新的期望回报。

🧩 核心思想：限制策略更新幅度

策略梯度方法要优化目标函数：

但如果每次更新步长太大，会让策略发散（学崩），所以 PPO 引入了

http://www.dtcms.com/a/172847.html

相关文章：

HTML05：超链接标签及应用

永磁同步电机控制算法--基于PI和前馈的位置伺服控制

告别(Python)if elif else错误使用方法

介绍分治、动态规划、回溯分别是什么？有什么联系和区别？给出对象的场景和java代码？

【硬核攻坚】告别CUDA OOM！DeepSeek部署显存瓶颈终极解决方案：三大策略高效落地

day04_计算机常识丶基本数据类型转换

15.日志分析入门

架构思维：构建高并发读服务_热点数据查询的架构设计与性能调优

三维重建（二十一）——第二步和第三步

数据集-目标检测系列- 印度人脸检测数据集 indian face ＞＞ DataBall

对于1年来开发的程序化股票交易的做一个总结

linux inotify 资源详解

【Qt】配置环境变量

《赤色世界》彩蛋

如何判断node节点是否启用cgroup？

Windows 自带删除缓存

VTK 数据读取/写入类介绍

SpringBoot整合RabbitMQ(Java注解方式配置)

android-ndk开发(3): 连接设备到开发机

Java面试：微服务与大数据场景下的技术挑战

模块方法模式（Module Method Pattern）

scroll-view高度自适应

线程池配置不合理：系统性能的隐形杀手（深度解析版）

SpringCloud多环境配置的一些问题

基于 HTML5 的贪吃蛇小游戏实现

PE文件结构（导出表）

Linux 系统下VS Code python环境配置！

Cisco NDO - Nexus Dashboard Orchestrator

六、shell脚本--正则表达式：玩转文本匹配的“万能钥匙”

Dify网页版 + vllm + Qwen