当前位置: 首页 > news >正文

【动手学强化学习】01初探强化学习

文章目录

  • 什么是强化学习
  • 强化学习解决的问题
  • 强化学习的独特性

什么是强化学习

强化学习是机器通过与环境交互来实现目标的计算方法。智能体与环境的交互方式如图所示,在每一轮交互中,智能体根据感知状态经过自身计算给出本轮动作,将其作用于环境;环境得到智能体动作后,产生相应的即时奖励信号并发生相应的状态转移。智能体则在下一轮交互中感知到新的环境状态,以此类推。
在这里插入图片描述

如果问题可以建模成一个强化学习问题,有三要素不可缺少:

  • 环境:与有监督学习不同,强化学习中的环境是动态的随机过程,受当前环境状态及智能体决策动作影响。
  • 目标:即决策目标,智能体与环境进行交互时,环境会产生相应的奖励信号。这个奖励信号一般是诠释当前状态或动作的好坏的及时反馈信号。
  • 数据:在智能体与环境交互过程中,我们实际优化的是数据分布,即占用度量。由于奖励建立在状态动作对之上,一个策略对应的价值就是一个占用度量下对于的奖励期望,因此寻找最优策略实际上是寻找最优占用度量。

强化学习解决的问题

强化学习处理的任务是序贯决策任务。决策和预测不同,决策需要为未来所发生的事负责,当下最优解可能不是全局最优解,也就是说当下动作会影响未来状态;而预测仅是根据数据以期望得到和输出一样的结果,并不会影响环境状态。

强化学习的独特性

对于一般的监督学习来说,我们的目标是找到一个最优的模型函数,使其最小化损失函数。
O p t i m a l   M o d e l = arg min ⁡ M o d e l L o s s ( y , y ^ ) Optimal\space Model = \argmin_{Model} Loss(y, \hat y ) Optimal Model=ModelargminLoss(y,y^)
相比之下,强化学习任务的最终优化目标是最大化智能体策略在和动态环境交互过程中的价值。
O p t i m a l   P o l i c y = arg max ⁡ P o l i c y R e w a r d ( S , A ) Optimal\space Policy = \argmax_{Policy} Reward(S, A) Optimal Policy=PolicyargmaxReward(S,A)

可以发现一般的有监督学习关注寻找一个模型,使其在给定数据分布下得到的损失函数的期望最小;而强化学习关注寻找一个最优策略,使其在于动态环境交互后产生最优数据分布。

相关文章:

  • 张量循环运算:内存溢出原因及解决
  • 【Viper】配置格式与支持的数据源与go案例
  • C++中接口与继承的区别(自我学习用)
  • 提供可传递的易受攻击的依赖项
  • docker 运行 芋道微服务
  • Java 设计模式之桥接模式
  • Django 项目自动化部署脚本全解析
  • 【Maven】多module项目优雅的实现pom依赖管理
  • 一文深入了解DeepSeek-R1:模型架构
  • 【Logistic Regression】机器学习中的基础分类模型
  • P1226 【模板】快速幂
  • 主动视觉可能就是你所需要的:在双臂机器人操作中探索主动视觉
  • C++ Primer 语句作用域
  • Promise的三种状态
  • 企业数据安全:切实有效的数据安全保障措施分享:
  • deep seek
  • OpenAI 放王炸,将发布整合多项技术的 GPT-5,并免费无限使用,该模型有哪些技术亮点
  • JAVA学习-练习试用Java实现“结合Apache Nifi对大数据流进行自动化处理和筛查”
  • DeepSeek大模型响应速度优化策略
  • Spring Boot全局异常处理终极指南:从青铜到王者的实战演进
  • 网站排名怎样做有效/外链网盘网站
  • 哪个网站做美食视频/金华百度推广公司
  • b2b网站制作平台/域名购买哪个网站好
  • 怎么做网站变更/百度灰色词排名代发
  • 做网站 用什么做数据库最好/百中搜优化
  • 网站备案号查询/重庆疫情最新数据