当前位置：首页 > news >正文

RL知识回顾

news 2025/9/21 16:19:54

一

1.状态转移随机性

2.占用度量（这个概念第一次认识

衡量交互过程中数据的分布，如果两个策略交互展示出来的数据分布一致可以认为策略相同；

从数据角度来看，就是最优化数据分布；

总结

监督学习认为数据独立同分布，RL认为数据分布本身都是就存在2种随机性质。因此，学习过程RL将面临更加混沌的环境，学习难度也因此增加。

二 MAB

MAB问题中，动作并不会影响状态。但他仍然是一个RL问题，就是因为

即使在多臂老虎机（MAB）问题中，环境的状态是固定的，不会因为代理的动作而改变，但代理仍然需要通过与环境的交互来学习最优的策略。这种学习过程和内部状态的更新机制是强化学习（RL）的核心特征。因此，MAB问题仍然被认为是RL问题。

其实就是分为两部分奖励和状态，即使交互过程不影响o但是会影响奖励分布的计算，所以也符合RL问题的定义

MAB属于单步决策？？？

为什么MAB这类单步决策任务也有相应算法？

这一章关于多步决策和单步决策，之前就存在疑问：

如果在单步决策任务中，动作不影响环境状态，并且奖励分布也不需要明确求出，那么这个任务确实可以退化为一个监督学习（Supervised Learning）问题，而不是典型的强化学习（Reinforcement Learning, RL）问题。在这种情况下，深度学习（DL）方法可以非常适用，因为问题的核心变成了从输入到输出的映射学习。

如果不需要与环境进行交互来学习，就退化成了dl任务。

三 MDP

价值函数解析解求法

MC

四 DP

值迭代和策略迭代

策略迭代

4. 总结

值迭代和策略迭代都是动态规划中用于解决MDP问题的重要方法。值迭代通过直接更新值函数来逼近最优值函数，而策略迭代通过交替进行策略评估和策略改进来逼近最优策略。值迭代实现简单，但收敛速度可能较慢；策略迭代收敛速度通常更快，但实现复杂度较高。在实际应用中，选择哪种方法取决于具体问题的复杂性和计算资源的限制。

问题：也就是说策略迭代中包含了值迭代？

http://www.dtcms.com/a/393354.html

相关文章：

Java多线程编程指南

【论文速读】基于地面激光扫描(TLS)和迭代最近点(ICP)算法的土坝监测变形分析

GAMES101:现代计算机图形学入门（Chapter2 向量与线性代数）迅猛式学线性代数学习笔记

汉语构词智慧：从历史优势到现实考量——兼论“汉语全面改造英语”的可能性

仿tcmalloc高并发内存池

墨者学院-通关攻略（持续更新持续改进）

10厘米钢板矫平机：把“波浪”压成“镜面”的科学

ESP32- 项目应用1 智能手表之网络配置 #6

TCP/IP 互联网的真相：空间域和时间域的统计学

同步与异步

C++中char与string的终极对比指南

Java基础 9.20

U228721 反转单链表

串行总线、并行总线

`HTML`实体插入软连字符: `shy；`

日志驱动切换针对海外vps日志收集的操作标准

Zynq开发实践（SDK之自定义IP2 - FPGA验证）

广东电信RTSP单播源参数解析

关于工作中AI Coding的一些踩坑经验

MyBatis 参数传递详解：从基础到复杂场景全解析

ego(8)---L-BFGS优化算法与B样条生成最终轨迹

【开题答辩全过程】以 HPV疫苗预约网站为例，包含答辩的问题和答案

Linux网络中Socket网络套接字的高级应用与优化策略

人才测评系统选型参考：含国内平台对比

人才素质测评在线测评系统平台清单：5款推荐

【语法进阶】匹配分组

猫头虎AI开源项目分享：通过压缩-感知-扩展来改善RAG应用延迟的高效框架：REFRAG，速度快、质量高

某音a_bogus纯算法192位研究分析

RAG vs 长文本模型：技术原理、适用场景与选型指南

PowerBI自定义函数