当前位置：首页 > news >正文

什么是强化学习（RL）--2

news 2025/7/11 6:51:04

学习笔记

原视频：概述增强式学习三 – ActorCriticA_哔哩哔哩_bilibili

Critic:

value function: 当看到s的游戏画面，当使用action,则看到the disconted cumulated reward, 未卜先知,游戏没完成就知道总reward.

怎样得到value function呢

玩多次游戏，根据输出得到total reward, 然后估算value function

另外一个方法：

TD:不用玩完整场游戏就可以得到

得到的中间几个值，然后关键v(st)和v(st+1)的关系，得到之差越接近rt越好，从而估算

看到sb，得分的期望值就是v(sb)

举例：按照两种方法得到值如下可能是0或者是3/4

之前讲过total reward - baseline,那么这个baseline是多少比较合适呢？这个baseline可以是v的输出

为什么呢，因为这里At>0 表示这个执行这个action 得到的reward 比随机action得到的reward大。如下图。但是这里有个问题，这里Gt-hat是执行一次at得到的结果，不一定代表大多数情况。

所以应该是用平均减去平均，version4 如下图。这就是一个常用的方法，叫做advantage actor-critic

训练的小技巧：

由于这里输入都是游戏画面，前面的部分可能处理差不多，所以actor和critic有一部分共用的network。

其他：

查看全文

http://www.dtcms.com/a/272246.html

如何在VMware里的飞牛OS访问主机里面图片文件夹

【运维实战】解决 K8s 节点无法拉取 pause:3.6 镜像导致 API Server 启动失败的问题

【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（三）

华为昇腾NPU与NVIDIA CUDA生态兼容层开发实录：手写算子自动转换工具链（AST级代码迁移方案）

缓存穿透与击穿多方案对比与实践指南

设计模式的六大设计原则

AI问答之手机相机专业拍照模式的主要几个参数解释

【笔记】使用 html 创建网址快捷方式

达梦数据库DMDRS搭建单向dm8-dm8数据同步

【工具教程】批量提取OCR图片中固定文字保存WPS表格，批量OCR识别图像中的文字保存到Excel表格的操作步骤和注意事项

虚拟环境已安装该包，且已激活，但报错

智能体的记忆系统：短期记忆、长期记忆与知识图谱

Spring for Apache Pulsar-＞Reactive Support-＞Quick Tour

【LeetCode100】--- 1.两数之和【复习回滚】

氢能源杂谈

深入拆解Spring核心思想之一：IoC

天津医大用网络药理学+分子对接发表中科院二区IF5

【Python】基于Python提取图片验证码

SYM32第二十天 ESP8266-01S和电脑实现串口通信（3）

羊肚菌自动采收车设计cad【7张】＋三维图＋设计说明书

电脑息屏工具，一键黑屏超方便

双esp8266-01之间UDP透传传输，自定义协议

LlamaFactory Demo

使用langchain连接llama.cpp部署的本地deepseek大模型开发简单的LLM应用

CTFHub————Web{信息泄露[备份文件下载(vim缓存、.DS_Store)]}

turbopack打包机制

SQL的初步学习（一）（以MySQL为例）

重置 Rust 工具链

缺乏项目进度对比历史数据，如何建立进度基线

深度学习_全连接神经网络

相关文章：