当前位置: 首页 > news >正文

【强化学习】——04Model-Based RL

【强化学习】——04Model-Based RL

一、基于模型的强化学习

\quad\quad 强化学习算法一般有两个评价指标:

\quad\quad \quad\quad 一是,算法收敛后的策略在初始状态下的期望回报

\quad\quad \quad\quad 二是,算法达到收敛结果需要的样本数量

\quad\quad 基于模型的算法得益于这个环境模型,Agent对真实环境中的样本量的需求往往会减少

\quad\quad 通常具备较低的样本复杂度,但由于环境模型不可能完全准确,因此其期望回报通常较低

  1. 简介

在这里插入图片描述
\quad\quad 之前的Model-Free RL中,Agent只可以与环境进行交互

\quad\quad 如果环境模型已知,那么Agent可以与模型进行交互,基于模型来规划或决策

\quad\quad 这个模型的作用在于提供环境状态转移概率和预测生成的奖励,以产生或优化策略

  1. 环境模型 M ( P , R ) M(P,R) M(P,R)的组成

\quad\quad 状态转移函数 P ( s ′ ∣ s , a ) P(s'|s,a) P(ss,a)

\quad\quad 奖励函数 R ( s , a ) R(s,a) R(s,a)

  1. 核心思路

\quad\quad 模型学习:学习或构建环境的动态模型和奖励函数

\quad\quad \quad\quad 基于数据驱动的方法:监督学习,通过收集到的数据对模型进行训练

\quad\quad \quad\quad 基于物理规律的方法:基于机器人的动力学方程建立模型

\quad\quad 规划:基于模型进行推理,找到最优策略

\quad\quad \quad\quad MPC

\quad\quad \quad\quad DP

\quad\quad

相关文章:

  • 古镇网站建设公司网络推广项目计划书
  • 网站上面的主导航条怎么做市场营销产品推广策划方案
  • 网站免费响应建设b2b免费外链发布
  • 网站开发要写代码吗windows优化大师软件介绍
  • 现在币圈有那些私募网站做的好头条新闻今日头条
  • 网站开发 java c php百度目前的推广方法
  • 运维_集运维linu自动化运维和部署
  • 会计 - 合并4 - 或有对价的会计处理
  • Python基于Django的文件销毁系统【附源码、文档说明】
  • ubuntu的虚拟显示器安装
  • Vue具名插槽
  • FirmAE安装-重新写
  • 【STM32F1标准库】理论——定时器中的输出比较
  • Day47
  • PostgreSQL数据类型使用
  • ros创建工作空间配置运行状态机
  • go语言学习 第8章:切片
  • spring中的@RabbitListener注解详解
  • 腾讯 ovCompose 跨平台框架发布,几年后还会有人用吗?
  • SSM spring Bean实例化
  • matlab 2024a ​工具箱Aerospsce Toolbox报错​
  • 【力扣链表篇】19.删除链表的倒数第N个节点
  • 2025年06月07日Github流行趋势
  • Vue3 项目的基本架构解读
  • 2012-2023年 上市公司-知识重组创造、知识重组再利用数据-社科经管实证数据
  • 《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析LLP (二)