当前位置：首页 > news >正文

【强化学习】——03 Model-Free RL

news 2025/8/14 17:32:12

【强化学习】——03 Model-Free RL

$\quad\quad$
$\quad\quad$ 动态规划算法是基于模型的算法，要求已知状态转移概率和奖励函数。但很多实际问题中环境

可能是未知的，这就需要不基于模型的RL方法。

一、不基于模型的“预测”——更新 $V_\pi(s)$

（一）蒙特卡洛算法MC

主要思想：

$\quad\quad$ 通过大量采样来逼近真实值，用频率来估计概率。通过多次采样，使用一个事件发生的频率来替代其发生的概率，以解决状态转移概率未知的问题。

$\quad\quad$ Agent与环境交互产生若干完整的轨迹（从初态到末态），通过对多条轨迹的回报进行平均，进而估计状态价值或动作价值。

整体思路：

$\quad\quad$ 模拟——抽样——估值

$\quad\quad$ 强化学习的目标是寻找最优策略，方法是求 $V_\pi(s)$ 和 $Q_\pi(s,a)$

实现：

（1）策略评估：

$\quad\quad$ 初始化——选择一个 $(s, a)$

$\quad\quad$ 模拟——使用当前策略 $\pi$ ，从 $(s, a)$ 进行一次模拟，随机产生一段轨迹

$\quad\quad$ 抽样——获得这段轨迹上每个 $s_i,a_i)$ 的收获 $G(s_i,a_i)$

$G_t=R_{t+1}+\gamma R_{t+2}+...+\gamma^{T-t-1}R_T$

$V_\pi(s)=E[G_t|S_t=s]$

$\quad\quad$ 注意：实际上我们使用N个样本回报来估计期望回报，即 $V_\pi(s)\approx1/N\sum G_t$

$\quad\quad$ 但在等待一个轨迹的过程中，会产生估计误差。

$\quad\quad$ 我们可以使用真实回报来纠偏，使得新的估计=原有估计+学习率×实际回报和估计回报的误差

$V(S_t)\leftarrow V(S_t)+\alpha[G_t-V(S_t)]$

$\quad\quad$ 直至预测的回报无限接近真实的回报

（2）策略优化：

$\quad\quad$ 如选择贪心地改进策略， $\pi(s)\dot=\argmax_a q(s,a)$

$\quad\quad$ 优化 $Q_\pi(s,a)$ 和 $\pi(s)$

（二）时序差分算法TD

$\quad\quad$ MC要求所有采样序列都是完整的状态序列。如果没有完整的状态序列，可采用时序差分算法

引导：

$\quad\quad$ 由于没有完整的状态序列，因此收获的计算不能用 $G_t$ 的公式。

$\quad\quad$ 根据状态价值函数的定义，用 $R_{t+1}+\gamma V_\pi(S_{t+1})$

查看全文

http://www.dtcms.com/a/233655.html

【前端】js如何处理计算精度问题

并发编程 - go版

Go中的协程并发和并发panic处理

Ubuntu ssh 永久添加私钥

TripGenie：畅游济南旅行规划助手：个人工作纪实（九）

JMeter 实现 MQTT 协议压力测试！

大陆4D毫米波雷达ARS548调试

MySQL 的 redo log 和 binlog 区别？

探秘鸿蒙 HarmonyOS NEXT：实战用 CodeGenie 构建鸿蒙应用页面

窗口聚合窗口聚合

【C++11新特性】

SQL知识合集(二)：函数篇

std::conditional_t一个用法

Linux-07 ubuntu 的 chrome 启动不了

【QT】qtdesigner中将控件提升为自定义控件后，css设置样式不生效（已解决，图文详情）

总结vxe-grid的一些用法

前端vue打开多个窗口，关闭窗口后才继续执行后续逻辑

【C语言】字符与字符串

[6-01-01].第12节：字节码文件内容 - 属性表集合

Pydantic，Field和Annotated

JAVA实战开源项目：周边游平台系统 (Vue+SpringBoot) 附源码

Python图像灰度化处理：原理、方法与实战

Java八股文——集合「Queue篇」

Redis Set集合命令、内部编码及应用场景(详细)

【电赛培训课程】运算放大器及其应用电路设计

Abaqus分析步与输出：

JVM中的各类引用

Redis（02）Win系统如何将Redis配置为开机自启的服务

Linux下如何使用shell脚本导出elasticsearch中某一个index的数据为本地csv文件

mysql脚本安装