当前位置: 首页 > news >正文

李宏毅机器学习笔记38

目录

摘要

1.reward shaping

2.inverse reinforcement learning(IRL)


摘要

本篇文章继续学习李宏毅老师2025春季机器学习课程,学习内容是RL中的reward shaping和inverse reinforcement learning(IRL)的基本概念及相关知识。

1.reward shaping

评价分数A的计算方式是,这样公式,很怕遇见一种情况,假设reward多数时候是0,只有很小的概率会得到一个巨大的reward,这意味着A无论怎么算都是0,这样就没办法确认actor,这就是sparse reward问题。

遇到这种情况有一个解法是,想办法提供额外的reward帮助agent学习,这就叫reward shaping。以vizdoom(第一人称射击游戏)为例,被杀掉就扣分,杀了敌人就加分。只靠这样的规则很难训练起来。假设在游戏中扣血没用惩罚,死掉才会扣分,这样机器可能很久才学到扣血和死掉之间的关联,所以我们人为给机器增加一些对游戏分数没有影响但是会利于得到分数的规则帮助机器学习。比如下图中捡到医疗包是正的reward,原地不动是负的reward等。

2.inverse reinforcement learning(IRL)

在真实的环境中,定义reward有可能是很困难的,假设用RL让自驾车学会在路上走,那做什么样的事情会得到什么reward呢,这是很难定义的。如果reward没定义好,可能会产生很奇怪的行为。例如机械公敌电影中,机器被定义三个规则1.不可以伤害人类,也不能不管人类被伤害;2.不违反第一条的前提下,必须听人类的命令;3.不违反第一,第二条的前提下,必须要保护自己。可以认为如果不违反这三条规则,就会得到positive reward;违反就得到negative reward。最终机器把人类监禁起来,因为人类会自我伤害,这同样符合三个规则,可以得到positive reward。

在没有reward时,有一种方法叫imitation learning,假设actor仍然可以跟环境互动,但是不会得到reward。找一些expert示范,找很多人类跟这个环境互动并记录下来,用这些让机器学习。

学习的方式就类似supervised learning,同样是自动驾驶的例子,将expert示范作为标准答案让模型的预测输出尽可能接近expert动作。但是存在的问题是测试时可能会进入一个它从未见过的状态,比如示范中不会撞到墙,在实际测试中要撞到墙机器就会不知所措。

没有reward也可以采用inverse reinforcement learning的方法,这个方法不是根据reward学习,而是从expert的示范和环境反推reward是什么样的。这样学出一个reward function之后,就可以直接用一般的RL来训练actor。

inverse reinforcement learning(IRL)的概念是,假设老师的行为可以取得最高的reward,有一个什么都不会的actor跟环境互动得到收集一些trajectory,接下来要定义reward function,训练的条件是老师的行为得到的reward必须高于学生的行为得到的reward,然后更新actor参数,接下来反复执行这个过程,最总得到一个reward function。

下图是IRL的架构图

http://www.dtcms.com/a/558069.html

相关文章:

  • 本网站建设优秀个人网站欣赏
  • 基于springboot的河南传统文化展示与推荐系统
  • 宁波专业网站建设公司百度网络营销的概念和含义
  • 《P2656 采蘑菇》
  • 做网站每年需付费吗河南省建设人才信息网官网
  • 做网站要用到数据库吗文网文网站建设
  • 网站策划流程专业做婚庆的网站
  • 中国住房建设部网站wordpress后台拿shell
  • day96—双指针—长按键入(LeetCode-925)
  • 本地部署 Spring AI 完全指南:从环境搭建到实战落地
  • 外贸服装网站建设高邮网站建设
  • 建设电子商务网站期末考试网站开发需求表
  • 如何利用QuickAPI管理企业数据库的API生命周期并提升数据安全
  • 做自媒体网站开发番禺网站开发设计
  • Verilog和FPGA的自学笔记9——呼吸灯
  • @RestController注解
  • 门户网站英文郑州网站模板建设
  • LVS负载均衡集群理论
  • 关于高校网站建设论文的总结网络优化基础知识
  • 规则引擎Drools语法要点
  • 柘林网站建设公司推广做哪个网站
  • 校园网站建设情况统计表logo标志
  • UVa 10396 Vampire Numbers
  • 关于网站建设的指标河北城乡和住房建设厅官方网站
  • 【图像】图像的颜色深度(Color Depth)和存储格式(File Format)
  • docker镜像国内的仓库地址
  • 汕头企业网站建设价格seo外贸 网站公司推荐
  • 跟着deepseek减肥
  • 深圳盐田网站建设wordpress vr主题公园
  • 未来软件网站建设财经网站直播系统建设