当前位置: 首页 > news >正文

强化学习笔记7——DDPG到TD3

前提:基于TD 的方法多少都会有高估问题,即Q值偏大。原因两个:一、TD目标是真实动作的高估。 二:自举法高估。
在这里插入图片描述

DDPG 属于AC方法:异策略,适合连续动作空间,因为他的策略网络直接输出的动作,是向量就表示执行的动作。
而之前的PPO是输出动作的均值和方差,DQN 等输出每个动作的概率

在这里插入图片描述在这里插入图片描述################## ### ###################相当于 TDerror 的两部分用两个网络预测 ###################### ########

TD3参考

TD3 相比DDPG 改进其实就是 针对不稳定、高估问题,加了两个策略网络和价值网络。即targetNet 和 mainNet ,和之前DQN的做法很像。
在这里插入图片描述
在这里插入图片描述

针对 Critic网络预测Q 偏大问题,设置两个Critic 同时估计Q ,然后选择小的那一个Q再做error

相关文章:

  • 速度与激情:4.5吨轻卡阻力与刹车力模型的终极拆解——从仿真台架到真实路况的硬核对话
  • 2025年2月16日(numpy-deepseek)
  • 【云原生】SpringCloud-Spring Boot Starter使用测试
  • Spring源码分析のBean创建流程(上)
  • OpenCV简介
  • 用命令模式设计一个JSBridge用于JavaScript与Android交互通信
  • Python —— format函数的使用
  • Copilot in OneNote(WebTeams)功能提升效率加倍
  • open3d绘制平面
  • kamailio的伪变量
  • 2.2 反向传播:神经网络如何“学习“?
  • 从Vec3实现复习运算符重载
  • Deepseek R1模型本地化部署与API实战指南:释放企业级AI生产力
  • 如何在 Vue 3 中使用 Vue Router 和 Vuex
  • 联想小新 510S-14IKB (80UX) 原厂Win10系统oem镜像下载
  • Hive查询之排序
  • 面试题整理:操作系统
  • Python 用户输入和While循环(使用while 循环来处理列表和字典)
  • PerfMonitor高效处理器性能监控与分析利器
  • [实现Rpc] 客户端划分 | 框架设计 | common类的实现
  • 曾犯强奸罪教师出狱后办教培机构?柳州鱼峰区教育局回应
  • 宜昌谱写新叙事:长江大保护与高质量发展如何相互成就
  • 外交部:反对美方人士发表不负责任谬论
  • 支持企业增强战略敏捷更好发展,上海市领导密集走访外贸外资企业
  • 旭辉控股集团主席林中:债务重组是活下来的前提,自营开发业务收缩至少数核心城市
  • 长沙查处疑似非法代孕:有人企图跳窗,有女子被麻醉躺手术台