当前位置: 首页 > news >正文

强化学习中的重要性采样:跨分布复用样本的核心技术

在强化学习中,智能体需与环境交互采集样本(轨迹、状态 - 动作对)以更新策略。但 “样本分布必须与目标策略分布一致” 的同策略限制,会导致采样效率低下(每次策略更新都需重新采样)。此时,** 重要性采样(Importance Sampling)** 成为突破分布限制、高效复用样本的关键技术。本文将从原理到应用,深入解析这一技术。

一、重要性采样的基本原理:解决分布不匹配的期望估计

假设我们需要计算 ** 目标分布 $p(x) $下函数 **** **** 的期望 **** ****,但由于采样限制(如 **** **** 难以直接采样),只能从提议分布 q(x)q(x)q(x)** 中采集样本 xxx

核心公式与符号解释

重要性采样通过 “积分变换 + 权重修正”,将对 p(x)p(x)p(x) 的期望转化为对 q(x)q(x)q(x) 的期望:

Ex∼p[f(x)]=∫f(x)p(x)dx=Ex∼q[f(x)⋅p(x)q(x)]\mathbb{E}_{x \sim p}[f(x)] = \int f(x) p(x) dx = \mathbb{E}_{x \sim q}\left[ f(x) \cdot \frac{p(x)}{q(x)} \right]Exp[f(x)]=f(x)p(x)dx=Exq[f(x)q(x)p(x)]

  • Ex∼p[⋅]\mathbb{E}_{x \sim p}[\cdot]Exp[]:表示 “样本 xxx 服从目标分布 ppp 时,括号内函数的期望”。

  • f(x)f(x)f(x):关于随机变量 xxx 的函数(在强化学习中,可理解为 “状态 / 轨迹的价值函数” 或 “策略梯度的加权项”)。

  • p(x)p(x)p(x)目标分布的概率密度 / 质量函数(强化学习中,是 “目标策略生成样本的分布”)。

  • q(x)q(x)q(x)提议分布的概率密度 / 质量函数(强化学习中,是 “实际采样策略生成样本的分布”)。

  • p(x)q(x)\frac{p(x)}{q(x)}q(x)p(x)重要性权重,用于修正 “提议分布 qqq 与目标分布 ppp 的差异”,让从 qqq 采样的样本等价于从 ppp 采样的 “期望效果”。

二、强化学习中的典型应用:策略梯度的样本复用

强化学习中,** 策略梯度方法(如 REINFORCE)需要计算 “动作对回报的梯度期望”。若用旧策略 πold\pi_{\text{old}}πold的样本(服从 **** **** 的分布 **** ****),估计新策略 πnew\pi_{\text{new}}πnew** 的梯度(目标分布 pppπnew\pi_{\text{new}}πnew 的分布),可通过重要性采样实现。

策略梯度中的重要性采样公式与符号解释

以 REINFORCE 算法为例,用旧策略样本估计新策略梯度的形式为:

梯a˚º¦∝E(s,a)∼πold[πnew(a∣s)πold(a∣s)⋅Q(s,a)]\text{梯度} \propto \mathbb{E}_{(s,a) \sim \pi_{\text{old}}}\left[ \frac{\pi_{\text{new}}(a|s)}{\pi_{\text{old}}(a|s)} \cdot Q(s,a) \right]梯a˚º¦E(s,a)πold[πold(as)πnew(as)Q(s,a)]

  • πold\pi_{\text{old}}πold旧策略(提议分布对应的采样策略,已与环境交互采集样本)。

  • πnew\pi_{\text{new}}πnew新策略(目标分布对应的待更新策略)。

  • (s,a)(s,a)(s,a)状态 - 动作对(强化学习中与环境交互的核心样本单元)。

  • πnew(a∣s)\pi_{\text{new}}(a|s)πnew(as):新策略 πnew\pi_{\text{new}}πnew 在状态 sss 下选择动作 aaa 的概率(目标分布的 “动作条件概率”)。

  • πold(a∣s)\pi_{\text{old}}(a|s)πold(as):旧策略 πold\pi_{\text{old}}πold 在状态 sss 下选择动作 aaa 的概率(提议分布的 “动作条件概率”)。

  • Q(s,a)Q(s,a)Q(s,a)动作价值函数(衡量 “在状态 sss 选动作 aaa 能获得的累积回报”)。

优势:无需新策略与环境交互采样,直接复用旧样本,大幅降低训练的环境交互成本。

三、异策略训练的深度应用:用 “示范策略” 突破同策略限制

同策略要求 “训练策略必须自己与环境交互采样”,效率极低;异策略则允许 “另一个**示范策略 **** ****与环境交互采样”,再通过重要性采样修正分布,训练目标策略 **** **。

1. 权重的简化假设:聚焦 “动作条件概率”

原本对 “整条轨迹 $\tau $” 的重要性权重为 $\frac{p_\theta(\tau)}{p_{\theta’}(\tau)} ((p_\theta(\tau)$ 是目标策略 θ\thetaθ 生成轨迹 τ\tauτ 的概率,pθ′(τ)p_{\theta'}(\tau)pθ(τ) 是示范策略 θ′\theta'θ 生成 τ\tauτ 的概率)。

但实际中,利用 **“状态出现概率与策略弱关联” 的假设 **(即 $p_\theta(s_t) \approx p_{\theta’}(s_t) $,因为状态多由环境主导,与策略选动作的关联较弱,且计算状态绝对概率极困难),将 “轨迹概率” 分解为 **“状态 - 动作对” 的条件概率 **,最终简化为:

pθ(at∣st)pθ′(at∣st)\frac{p_\theta(a_t|s_t)}{p_{\theta'}(a_t|s_t)}pθ(atst)pθ(atst)

  • pθ(at∣st)p_\theta(a_t|s_t)pθ(atst):目标策略 θ\thetaθ 在状态 sts_tst 下选择动作 ata_tat 的概率(目标分布的 “动作条件概率”)。

  • pθ′(at∣st)p_{\theta'}(a_t|s_t)pθ(atst):示范策略 θ′\theta'θ 在状态 sts_tst 下选择动作 ata_tat 的概率(提议分布的 “动作条件概率”)。

2. 异策略的目标函数与梯度更新

结合**优势函数 **** **(衡量 “在状态 sts_tst 选动作 ata_tat 的好坏”,由示范策略 θ′\theta'θ 的交互样本估计,如 “累积回报 - 基线”),构造异策略下的目标函数:

Jθ′(θ)=E(st,at)∼πθ′[pθ(at∣st)pθ′(at∣st)⋅Aθ′(st,at)]J^{\theta'}(\theta) = \mathbb{E}_{(s_t,a_t) \sim \pi_{\theta'}} \left[ \frac{p_\theta(a_t|s_t)}{p_{\theta'}(a_t|s_t)} \cdot A^{\theta'}(s_t, a_t) \right]Jθ(θ)=E(st,at)πθ[pθ(atst)pθ(atst)Aθ(st,at)]

对该目标函数求梯度,即可用 θ′\theta'θ 的样本更新目标策略 θ\thetaθ

符号补充解释
  • Jθ′(θ)J^{\theta'}(\theta)Jθ(θ)异策略下的目标函数(要优化的 “目标策略 θ\thetaθ 的性能指标”,但样本由示范策略 θ′\theta'θ 提供)。

  • (st,at)∼πθ′(s_t,a_t) \sim \pi_{\theta'}(st,at)πθ:表示 “状态 - 动作对 (st,at)(s_t,a_t)(st,at) 由示范策略 $\pi_{\theta’} $(即 θ′\theta'θ 对应的策略)与环境交互采样得到”。

  • Aθ′(st,at)A^{\theta'}(s_t, a_t)Aθ(st,at)优势函数(由示范策略 θ′\theta'θ 的交互轨迹估计,输出 “状态 sts_tst 选动作 ata_tat 比平均情况好 / 差多少”)。

3. 可行性:计算与估计的便捷性

  • 动作条件概率 pθ(at∣st)pθ′(at∣st)\frac{p_\theta(a_t|s_t)}{p_{\theta'}(a_t|s_t)}pθ(atst)pθ(atst):策略通常由神经网络表示,可直接输出 “状态 sts_tst 下选动作 ata_tat 的概率”,因此比值易计算。

  • 优势函数 Aθ′(st,at)A^{\theta'}(s_t, a_t)Aθ(st,at):可通过 θ′\theta'θ 与环境交互的 “回报轨迹” 估计(如 REINFORCE 用 “累积回报”,A2C 用 “时序差分误差” 或 “广义优势估计(GAE)”)。

四、核心挑战:方差爆炸与改进方向

挑战:分布差异过大导致方差失控

若目标分布 ppp 与提议分布 qqq 差异过大(即 p(x)q(x)\frac{p(x)}{q(x)}q(x)p(x) 波动剧烈),会导致 f(x)⋅p(x)q(x)f(x) \cdot \frac{p(x)}{q(x)}f(x)q(x)p(x)方差急剧增大

  • 表现:少量样本会带来极大偏差(如 “目标分布侧重左侧、提议分布侧重右侧” 时,采样次数不足会使估计结果偏离真实期望),导致训练不稳定甚至崩溃。

改进方向

为缓解 “方差爆炸”,强化学习中常用以下方法:

  1. 截断重要性采样:限制重要性权重的最大值,避免个别样本权重过高主导结果。

  2. 归一化权重:让所有样本的权重和为 1,减少权重波动。

  3. 多步修正与策略平滑:逐步缩小新旧策略(或目标策略与示范策略)的差距,降低分布差异。

总结

重要性采样是强化学习中 “跨分布复用样本、实现高效异策略训练” 的核心技术。它通过 “权重修正” 突破 “同策略必须自采样” 的限制,让旧策略 / 示范策略的样本能服务于新策略的训练。尽管存在 “分布差异过大导致方差爆炸” 的挑战,但结合 “权重简化假设、优势函数、截断 / 归一化技巧”,能在实际中有效支持策略更新,是高效强化学习算法(如 PPO、离线强化学习)的关键基石之一。

(注:文档内容由 人类和AI共创)

http://www.dtcms.com/a/341965.html

相关文章:

  • 大模型0基础开发入门与实践:第8章 “大力出奇迹”的哲学:大语言模型的核心技术揭秘
  • 【世纪龙科技】汽车专业虚拟仿真实训基地建设方案
  • 嵌入式软件典型架构:层次化模式 vs 递归模式
  • Java Main无法初始化主类的原因与解决方法(VsCode工具)
  • 【Java后端】Spring Boot 实现请求设备来源统计与UA解析全攻略
  • 智慧工厂的 “隐形大脑”:边缘计算网关凭什么重构设备连接新逻辑?
  • 编程刷题-资料分发1 图论/DFS
  • Kotlin-基础语法练习二
  • Android面试指南(四)
  • [新启航]机械深孔加工质控:新启航方案用激光频率梳破解 130mm 深度遮挡瓶颈
  • 闲聊汽车芯片的信息安全需求和功能
  • C# NX二次开发:反向控件和组控件详解
  • 智慧巡检新标杆:智能移动机器人——电力行业的守护者
  • 【数据结构】树与二叉树:结构、性质与存储
  • 解码欧洲宠物经济蓝海:跨境电商突围的战略逻辑与运营范式
  • Vue2+Vue3前端开发_Day5
  • 【PZ-A735T-KFB】璞致fpga开发板 Artix-7 系列之PA-Starlite-初学入门首选 开发板用户手册
  • 《Python 整数列表分类:巧妙将负数移到正数前面》
  • 力扣hot100:无重复字符的最长子串,找到字符串中所有字母异位词(滑动窗口算法讲解)(3,438)
  • LeetCode每日一题,2025-08-21
  • C++——C++重点知识点复习2(详细复习模板,继承)
  • 2.Shell脚本修炼手册---创建第一个 Shell 脚本
  • C++ string类(reserve , resize , insert , erase)
  • 鸿蒙中网络诊断:Network分析
  • 深入理解JVM内存结构:从字节码执行到垃圾回收的全景解析
  • 金山云Q2营收23.5亿元 AI战略激活业务增长新空间
  • Altium Designer 22使用笔记(8)---PCB电气约束设置
  • GitHub Copilot - GitHub 推出的AI编程助手
  • Pytorch框架学习
  • Bigemap APP 详细使用教程,入门学习PPT