当前位置: 首页 > news >正文

什么是强化学习(RL)--2

学习笔记

原视频:概述增强式学习 三 – ActorCriticA_哔哩哔哩_bilibili

Critic:

value function: 当看到s的游戏画面,当使用action,则看到the disconted cumulated reward, 未卜先知,游戏没完成就知道总reward.

怎样得到value function呢

玩多次游戏,根据输出得到total reward, 然后估算value function

另外一个方法:

TD:不用玩完整场游戏就可以得到 

得到的中间几个值,然后关键v(st)和v(st+1)的关系,得到之差越接近rt越好,从而估算

看到sb,得分的期望值就是v(sb)

举例:按照两种方法得到值如下可能是0或者是3/4

之前讲过total reward - baseline,那么这个baseline是多少比较合适呢?这个baseline可以是v的输出

为什么呢,因为这里At>0 表示这个执行这个action 得到的reward 比随机action得到的reward大。如下图。但是这里有个问题,这里Gt-hat是执行一次at得到的结果,不一定代表大多数情况。

所以应该是用平均减去平均,version4 如下图。这就是一个常用的方法,叫做advantage actor-critic

训练的小技巧:

由于这里输入都是游戏画面,前面的部分可能处理差不多,所以actor和critic有一部分共用的network。

其他:

http://www.dtcms.com/a/272246.html

相关文章:

  • 如何在VMware里的飞牛OS访问主机里面图片文件夹
  • 【运维实战】解决 K8s 节点无法拉取 pause:3.6 镜像导致 API Server 启动失败的问题
  • 【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔(三)
  • 华为昇腾NPU与NVIDIA CUDA生态兼容层开发实录:手写算子自动转换工具链(AST级代码迁移方案)
  • 缓存穿透与击穿多方案对比与实践指南
  • 设计模式的六大设计原则
  • AI问答之手机相机专业拍照模式的主要几个参数解释
  • 【笔记】使用 html 创建网址快捷方式
  • 达梦数据库DMDRS搭建单向dm8-dm8数据同步
  • 【工具教程】批量提取OCR图片中固定文字保存WPS表格,批量OCR识别图像中的文字保存到Excel表格的操作步骤和注意事项
  • 虚拟环境已安装该包,且已激活,但报错
  • 智能体的记忆系统:短期记忆、长期记忆与知识图谱
  • Spring for Apache Pulsar->Reactive Support->Quick Tour
  • 【LeetCode100】--- 1.两数之和【复习回滚】
  • 氢能源杂谈
  • 深入拆解Spring核心思想之一:IoC
  • 天津医大用网络药理学+分子对接发表中科院二区IF5
  • 【Python】基于Python提取图片验证码
  • SYM32第二十天 ESP8266-01S和电脑实现串口通信(3)
  • 羊肚菌自动采收车设计cad【7张】+三维图+设计说明书
  • 电脑息屏工具,一键黑屏超方便
  • 双esp8266-01之间UDP透传传输,自定义协议
  • LlamaFactory Demo
  • 使用langchain连接llama.cpp部署的本地deepseek大模型开发简单的LLM应用
  • CTFHub————Web{信息泄露[备份文件下载(vim缓存、.DS_Store)]}
  • turbopack打包机制
  • SQL的初步学习(一)(以MySQL为例)
  • 重置 Rust 工具链​
  • 缺乏项目进度对比历史数据,如何建立进度基线
  • 深度学习_全连接神经网络