当前位置：首页 > news >正文

强化学习入门：价值、回报、策略概念详解

news 2025/8/22 8:56:03

前言

最近想开一个关于强化学习专栏，因为DeepSeek-R1很火，但本人对于LLM连门都没入。因此，只是记录一些类似的读书笔记，内容不深，大多数只是一些概念的东西，数学公式也不会太多，还望读者多多指教。本次阅读书籍为：马克西姆的《深度强化学习实践》。
限于篇幅原因，请读者首先看下历史文章：
马尔科夫过程
马尔科夫奖励过程
马尔科夫奖励过程二
RL框架Gym简介
Gym实现CartPole随机智能体
交叉熵方法数学推导
强化学习入门：交叉熵方法实现CartPole智能体

1、出发点

原定本篇博客该介绍bellman方程的，但发现自己对于一些基础概念的计算和理解有点儿模糊，于是本篇先恶补一下目前RL所出现的一些基础概念，并搭配详细的计算公式。

2、示例

在这里插入图片描述
这里以书中一个例子来说明一些概念，在上图中，每个灰色节点表示状态，每条边上实线圆表示状态转移概率，每个虚线圆则表示状态转移所获得的奖励。
下面将举个视为片段的例子，在RL中也被称为“状态链”。
片段：家–> 咖啡 --> 计算机 --> 家。
在引入了片段后，就能解释何为“回报”定义了：
这里先贴下回报公式，对于一个片段来说，在 $t$ 时刻的回报定义为：
$G_t = R_{t+1} + \gamma R_{t+2} +... = \sum_{k=0}^{\infty}\gamma^kR_{t+k+1}$
其中 $\gamma$ 是超参数， $R_t$ 表示 $t$ 时刻奖励。
这里有个问题，对于一个智能体来说，可执行的状态链太多了，实际上回报应用的不太多，因此，这里引入了一个状态的期望回报(对大量状态链求回报的期望)，即状态的价值：
$E[\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}]$
okay，现在拿到公式了，现在计算状态“家”的价值：