当前位置：首页 > news >正文

回顾MDP的概念

news 2025/11/15 12:02:21

在这里插入图片描述
西湖大学赵世钰老师的课程中讲到如何准确地理解MDP的概念，可以拆分来看：

Markov：对应了memoryless property，也就是记忆无关性。这也是马尔可夫决策过程的一个重要的性质。
Decision：对应策略（Policy），因此policy在MDP中起到了决定作用，它描述了整个系统应该朝着什么方向优化。
Process：对应于{State, Action, Reward}集合以及两个概率分布。其中，两个概率分布包括条件转移概率 $p(s′∣s,a)p(s'\mid s,a)$ 和回报概率 $p(r∣s,a)p(r\mid s,a)$

http://www.dtcms.com/a/312862.html

相关文章：

RabbitMQ面试精讲 Day 8：死信队列与延迟队列实现

dbdiagram：一款简洁高效的免费数据库设计工具

二叉树算法之【前序遍历】

三生原理的“范畴语法”如何启发AI推理？

Spring Boot 整合 Minio 实现高效文件存储解决方案(本地和线上)

个人项目介绍：语音识别小助手

Spring AI的英语实例

Nginux Rewte 相关功能

基于Python实现生产者—消费者分布式消息队列：构建高可用异步通信系统

Rustdesk中继服务器搭建(windows 服务器)

【硬件-笔试面试题】硬件/电子工程师，笔试面试题-56，（知识点：电源模块，DCDC电源，LDO电源，原理及其特点）

Java(HashMap和HashTable和Properties)

kafka 是一个怎样的系统？是消息队列（MQ）还是一个分布式流处理平台？

哔哩哔哩招游戏内容产品运营

Ubuntu22.4部署大模型前置安装

零确认双花攻击

智变时代：AI 如何重构工作边界与行业生态？

【软考中级网络工程师】知识点之 IS-IS 协议

百度招黑产溯源安全工程师

Spring AOP_2

CPA全国青少年编程能力等级测评试卷及答案 Python编程(一级)

【代码详解】Triplane Meets Gaussian Splatting中triplane部分解析

【代码随想录|454.四数相加、383.赎金信、15.三数之和、18.四数之和】

模拟-6.N字形变换-力扣(LeetCode)

GPIO交换矩阵和IO_MUX

Python Seaborn【数据可视化库】全面讲解

node.js常用函数

web前端React和Vue框架与库安全实践

Elastic 9.1/8.19：默认启用 BBQ，ES|QL 支持跨集群搜索（CCS）正式版，JOINS 正式版，集成 Azure AI Foundry

Python爬虫实战：研究awesome-python工具，构建技术资源采集系统