当前位置：首页 > news >正文

【强化学习】——04Model-Based RL

news 2025/8/29 15:01:00

【强化学习】——04Model-Based RL

一、基于模型的强化学习

$\quad\quad$ 强化学习算法一般有两个评价指标：

$\quad\quad$ $\quad\quad$ 一是，算法收敛后的策略在初始状态下的期望回报

$\quad\quad$ $\quad\quad$ 二是，算法达到收敛结果需要的样本数量

$\quad\quad$ 基于模型的算法得益于这个环境模型，Agent对真实环境中的样本量的需求往往会减少

$\quad\quad$ 通常具备较低的样本复杂度，但由于环境模型不可能完全准确，因此其期望回报通常较低

简介：

在这里插入图片描述
$\quad\quad$ 之前的Model-Free RL中，Agent只可以与环境进行交互

$\quad\quad$ 如果环境模型已知，那么Agent可以与模型进行交互，基于模型来规划或决策

$\quad\quad$ 这个模型的作用在于提供环境状态转移概率和预测生成的奖励，以产生或优化策略

环境模型 $M (P, R)$ 的组成：

$\quad\quad$ 状态转移函数 $P (s^{'} ∣ s, a)$

$\quad\quad$ 奖励函数 $R (s, a)$

核心思路：

$\quad\quad$ 模型学习：学习或构建环境的动态模型和奖励函数

$\quad\quad$ $\quad\quad$ 基于数据驱动的方法：监督学习，通过收集到的数据对模型进行训练

$\quad\quad$ $\quad\quad$ 基于物理规律的方法：基于机器人的动力学方程建立模型

$\quad\quad$ 规划：基于模型进行推理，找到最优策略

$\quad\quad$ $\quad\quad$ MPC

$\quad\quad$ $\quad\quad$ DP

$\quad\quad$

查看全文

http://www.dtcms.com/a/237302.html

运维_集运维linu自动化运维和部署

会计 - 合并4 - 或有对价的会计处理

Python基于Django的文件销毁系统【附源码、文档说明】

ubuntu的虚拟显示器安装

Vue具名插槽

FirmAE安装-重新写

【STM32F1标准库】理论——定时器中的输出比较

Day47

PostgreSQL数据类型使用

ros创建工作空间配置运行状态机

go语言学习第8章：切片

spring中的@RabbitListener注解详解

腾讯 ovCompose 跨平台框架发布，几年后还会有人用吗？

SSM spring Bean实例化

matlab 2024a 工具箱Aerospsce Toolbox报错

【力扣链表篇】19.删除链表的倒数第N个节点

2025年06月07日Github流行趋势

Vue3 项目的基本架构解读

2012-2023年上市公司-知识重组创造、知识重组再利用数据-社科经管实证数据

《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析LLP (二）

备份还原打印机驱动

数据库管理与高可用-MySQL高可用

Java基于SpringBoot的校园闲置物品交易系统，附源码+文档说明

以智能管理为基础，楼宇自控打造建筑碳中和新路径

WebFuture 系统升级提示外键约束的问题处理

WebWorker-----高频面试题（浏览器篇）

30、memory-order-relaxed

从零开始开发纯血鸿蒙应用之网络检测

A Execllent Software Project Review and Solutions

【物联网-ModBus-RTU

【强化学习】——04Model-Based RL

一、基于模型的强化学习

相关文章：