当前位置：首页 > news >正文

策略梯度核心：Advantage 与 GAE 原理详解

news 2025/8/15 23:01:40

一.Advantage（优势函数）详解

什么是 Advantage？

Advantage 表示当前动作比平均水平好多少。

其定义公式为：

$A (s, a) = Q (s, a) - V (s)$

其中：

$Q (s, a)$ ：在状态 $s$ 下执行动作 $a$ 所得到的期望回报
$V (s)$ ：在状态 $s$ 下的平均期望回报

简而言之：

如果 $A (s, a) > 0$ ，说明该动作比平均值好，应该增强其概率
如果 $A (s, a) < 0$ ，说明该动作不好，应该削弱其概率

在策略梯度算法中的作用

在策略梯度方法（如 PPO、REINFORCE）中，优化目标常写为：

$\mathcal{L}(\theta) = -\log \pi_\theta(a|s) \cdot A(s, a)$

含义是：

当 Advantage 大时，增大该动作概率；
当 Advantage 小时，减小该动作概率；
Advantage 起到了加权放大奖励信号的作用。

总结表格

项目	描述
定义	动作与当前状态平均价值的差异
数学表达	$A (s, a) = Q (s, a) - V (s)$
主要用途	用于衡量动作质量，指导策略梯度方向
使用场景	PPO、REINFORCE、A2C、TRPO 等策略优化算法
是否关键	是策略更新的核心量，通常结合 GAE 进一步估算

二.GAE：Generalized Advantage Estimation

什么是 GAE？

GAE 是一种用于计算 Advantage（优势函数）的方法，目的是 在偏差和方差之间取得平衡，从而提高策略梯度算法（如 PPO、TRPO）的稳定性与收敛速度。

背景知识

回顾基本定义：

状态值函数： $V(s_t)$ 表示在状态 $s_t$ 下的期望回报。
优势函数： $A(s_t, a_t) = Q(s_t, a_t) - V(s_t)$ ，表示某动作比平均动作好多少。
TD误差（Temporal Difference Error）：

$\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$

GAE 的公式

GAE 使用加权和的形式累积多个时间步的 TD 误差：

$\hat{A}_t^{\text{GAE}(\gamma, \lambda)} = \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l}$

其中：

$\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$ 是 TD 误差
$\gamma$ ：折扣因子（控制未来奖励的重要性）
$\lambda$ ：平滑因子（控制 bias vs. variance）

当 $\lambda = 0$ ，只考虑一步 TD 误差（高偏低方）；

当 $\lambda \to 1$ ，接近 Monte Carlo（低偏高方）；

GAE 的优势

特性	描述
降低方差	多步估计会平滑短期噪声
保持较小偏差	引入 $\lambda$ 控制偏差
提高训练稳定性	在 PPO、TRPO 等算法中大幅提升收敛性能
易于实现	可用递推公式高效实现

递推公式（更高效）

实际中常用递推方式高效计算：

$\hat{A}_t = \delta_t + \gamma \lambda \hat{A}_{t+1}$

从最后一个时间步开始反向计算，避免显式展开加权和。

总结

GAE 是 TD 和 MC 方法之间的折中
关键控制参数是 $\lambda$ ，需调节其值以在 bias/variance 间权衡
是现代策略优化算法中的核心技术之一

📚 推荐论文：GAE 原始论文 by Schulman et al., 2016

http://www.dtcms.com/a/233144.html

相关文章：

dvwa12——XSS(Stored)

ObjectMapper 在 Spring 统一响应处理中的作用详解

使用API有效率地管理Dynadot域名，查看域名市场中所售域名的详细信息

Spring Boot 使用 SLF4J 实现控制台输出与分类日志文件管理

ES 学习总结一基础内容

Bug问题

qt ui 转python

导航路径优化(一)——平滑

PX4 | 无人机关闭磁力计罗盘飞行（yaw estimate error报错解决方法）

Vue事件总线

windows命令行面板升级Git版本

面试总结一

【HarmonyOS 5】社交行业详解以及开发案例

Tailwind CSS 实战：基于 Kooboo 构建 AI 对话框页面（七）：消息框交互功能添加

第二章支线八 ·CSS终式：Tailwind与原子风暴

一个基于Java的简单抢单功能实现示例，模拟多线程环境下的并发抢单场景

c#基础010(程序结构)

JavaSec-XSS

Mysql 身份认证绕过漏洞 CVE-2012-2122

OpenResty 安装指南

DNS攻击类型有哪些？如何应对DNS攻击威胁？

12.MySQL视图特性

高敏感应用如何保护自身不被逆向？iOS 安全加固策略与工具组合实战（含 Ipa Guard 等）

无法下载CUDA，下载界面链接打开异常

Linux网络——socket网络通信udp

13.4 AI颠覆语言学习：预录制视频+GPT-4评估如何实现60%成本降低与40%留存飙升

JSON Web Token (JWT) 详解：由来、原理与应用实践

CloudCompare——计算点云表面曲率

基于Docker Compose部署Java微服务项目

day47 TensorBoard学习