当前位置: 首页 > news >正文

强化学习入门:马尔科夫奖励过程

文章目录

  • 前言
  • 1、组成部分
  • 2、应用例子
  • 3、马尔科夫奖励过程
  • 总结


前言

 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》

1、组成部分

  强化学习其实主要包含下面五个部分:我将通过一个训练狗护食的例子来说明各部分含义。
在这里插入图片描述
 智能体是狗,环境就是周围一切,狗当然能够观察环境,而且还能采取吃与不吃的动作。而我作为训狗师会给予其奖励揍他或者给肉。
 1)当我去拿狗饭盆时,狗观察到我的手,采取了龇牙咧嘴的动作,结果奖励就是一巴掌;
 2)当我去拿狗饭盆时,狗观察到我的手,采取了眼睁睁看着我拿走饭盆的动作,结果奖励它继续吃;

2、应用例子

 其实上述范式在生活中到处都有应用,如下图所示:强化学习基本是很多学科的交集。
在这里插入图片描述
 实际应用领域:国际象棋ALphaGo,DeepSeek-R1,学习成绩,大脑多巴胺系统,等等,不一而足。

3、马尔科夫奖励过程

 在上一篇介绍了马尔科夫过程,核心包括有限状态空间和概率转移矩阵。而马尔科夫奖励过程则是在状态转移之间,引入了一个奖励矩阵,形状也是N*N:比如第i行第j列就表示从状态i到状态j所得到的奖励。
 在引入奖励矩阵后,引入一个核心概念:回报!其数学定义为:
G t = R t + 1 + γ R t + 2 + . . . = ∑ i = 1 ∞ R t + k + 1 G_t = R_{t+1} + {\gamma}R_{t+2} + ... = \sum_{i=1}^{\infty}R_{t+k+1} Gt=Rt+1+γRt+2+...=i=1Rt+k+1

 表达的意思是:在t时刻状态下,在接下来所有时刻所取得的回报和。其中 γ \gamma γ就是折扣因子,取值范围[0~1],越接近1,则考虑越多的未来。
 由于采取的可能性很多,因此, G t G_t Gt的变化范围很大,很难优化。但回报的期望却是能拿到的,即状态的价值
V ( s ) = E [ G ∣ S t = s ] V(s) = E[G|S_t=s] V(s)=E[GSt=s]
 表达含义是:在t时刻,对于每一个状态s条件下,所得到回报G的平均值。

总结

 本篇只是介绍下强化学习的回报和状态价值定义,让读者能从感性角度对其有个理解,下篇介绍在马尔科夫奖励过程中引入动作和策略。

http://www.dtcms.com/a/193334.html

相关文章:

  • vue3项目中使用CanvasEditor开箱即用(组件的形式,组件封装好了)
  • Makefile -------- 简单介绍
  • 【Java】Spring IoC中的相关注解
  • Cloudflare防火墙拦截谷歌爬虫|导致收录失败怎么解决?
  • SpringBoot集成Redis:实现分布式锁(redistemplate,lua,redisson)
  • Synchronized详解及高频面试问答
  • Makefile与CMake
  • 登录接口中图片验证码Tesseract-OCR识别Java脚本
  • 优化算法加速深度学习模型训练
  • IEEE出版|连续多年稳定检索|第三届信号处理与智能计算国际学术会议(SPIC2025)
  • CentOS7 OpenSSL升级1.1.1w
  • Vue中的自定义指令适用于哪些场景
  • 报销单业务笔记
  • 题解:P12207 [蓝桥杯 2023 国 Python B] 划分
  • 贝叶斯优化Transformer融合支持向量机多变量回归预测,附相关性气泡图、散点密度图,Matlab实现
  • 深入探索向量数据库:构建智能应用的新基础
  • vue3搭建脚手架前的前置知识
  • psycopg_pool.PoolTimeout: couldn‘t get a connection after 120.00 sec异常
  • 技术文档:变频器干扰问题与解决方案
  • 使用 QGIS 插件 OpenTopography DEM Downloader 下载高程数据(申请key教程)
  • 压电陶瓷极化-佰力博与您探讨极化工艺的重要性及极化方法。
  • Open CASCADE学习|容器及其使用
  • 2024 睿抗机器人开发者大赛CAIP-编程技能赛-本科组(省赛)解题报告 | 珂学家
  • Zabbix Agent的区别与选择!
  • 鸿蒙OSUniApp制作自定义的下拉菜单组件(鸿蒙系统适配版)#三方框架 #Uniapp
  • 阿里巴巴 1688 数据接口开发指南:构建自动化商品详情采集系统
  • 【RabbitMQ】实现RPC通信的完整指南
  • MySQL——1、数据库基础
  • 25.5.15
  • homeassistant安装