当前位置: 首页 > news >正文

【论文精度-3】POMO:强化学习中具有多个最优解的策略优化方法(Yeong-Dae Kwon 2020)

论文地址:

https://arxiv.org/abs/2010.16011https://arxiv.org/abs/2010.16011代码地址:

https://github.com/yd-kwon/POMOhttps://github.com/yd-kwon/POMO

这篇论文《POMO: Policy Optimization with Multiple Optima for Reinforcement Learning》是三星 SDS 团队在 2020 年 NeurIPS 上发表的一篇工作,主要针对组合优化(Combinatorial Optimization, CO)问题的深度强化学习(Deep Reinforcement Learning, DRL)求解方法进行了改进。


🧩 一、研究背景与问题动机

组合优化问题(如旅行商问题 TSP、车辆路径问题 CVRP、背包问题 KP)在物流、制造、调度等领域广泛存在。这类问题往往是 NP-hard 的,传统运筹优化算法(如启发式搜索、分支限界等)需要大量领域知识和人工设计。

近年来,强化学习(RL)在此类问题上表现出很强潜力,但现有方法(如 Pointer Network + REINFORCE、Attention Model 等)仍存在以下问题:

  1. 存在多个等价最优解(symmetry)
    例如在 TSP 中,路径 (v1, v2, v3, v4, v5)(v2, v3, v4, v5, v1) 表示相同的最优解,但传统训练仅学习其中一种表示,容易导致模型收敛到局部最优。

  2. 高方差梯度与训练不稳定
    基于 REINFORCE 的方法依赖单一基线(baseline),方差大、收敛慢。

  3. 推理阶段效率与精度权衡
    通常使用采样(sampling)或贪心(greedy)推理,但采样法慢、贪心法不稳定。


🚀 二、POMO 方法核心思想

POMO(Policy Optimization with Multiple Optima)的关键创新是:
在训练与推理阶段同时利用“多个等价最优解”的对称性信息,从多个起点并行优化策略。

(1)多起点并行探索(Explorations from Multiple Starting Nodes)

传统模型通过一个 <START> token 生成单一路径;
POMO 则从 N 个不同起始节点 同时生成 N 条轨迹(trajectory)。

  • 每个轨迹对应一种最优解的等价表示;

  • 所有轨迹并行参与梯度更新;

  • 通过“多视角学习”提升探索性与稳定性。

这相当于让模型从多个角度理解问题结构,避免只偏向单一路径。


(2)共享基线(Shared Baseline)以降低方差

POMO 基于 REINFORCE,但采用了共享基线(shared baseline)

即所有 N 条轨迹的平均回报作为基线。

优点:

  • 方差更小,梯度估计更稳定;

  • 不依赖单独的 Critic 网络;

  • 避免陷入局部最优(local minima)。

这相比传统的 greedy-rollout baseline 更快收敛、对初始化敏感性低。


(3)推理阶段:多贪心轨迹与实例增强(Inference with Multiple Greedy Trajectories & Augmentation)

推理时,POMO 不是只输出一个贪心轨迹,而是:

  • 从 N 个起点生成 N 条贪心轨迹

  • 选取最优结果。

此外,引入Instance Augmentation(实例增强)

  • 对问题实例施加对称变换(如坐标翻转、旋转);

  • 在每个增强实例上独立推理;

  • 取最优结果。

这一思想类似于图像识别中的“多视角评估”,可在不增加训练开销的情况下显著提升结果质量。


🧠 三、实验与结果分析

论文验证了 POMO 在三个经典组合优化问题上的表现:

1️⃣ Traveling Salesman Problem (TSP)

  • 对比对象:Concorde、LKH3、Gurobi、Attention Model 等;

  • POMO 在 TSP100 上的最优性差距仅 0.14%,推理速度快一个数量级。

  • 同一 Attention Model 网络,换用 POMO 训练后,TSP100 最优性差距从 3.51% 降到 1.07%。

2️⃣ Capacitated Vehicle Routing Problem (CVRP)

  • POMO 仍显著优于基线,CVRP100 的 gap 仅 0.32%;

  • 即使不引入额外的“起点选择”模块(SelectStartNodes),也能有效利用对称性。

3️⃣ 0–1 Knapsack Problem (KP)

  • 表明 POMO 并不限于路径类问题;

  • 同样的网络结构,仅替换输入含义(weight, value),仍获得接近最优解。


🔍 四、优点与贡献总结

POMO 的贡献主要体现在三方面:

创新点具体内容效果
1. 多起点并行优化充分利用组合优化问题的多重对称最优性增强探索性与鲁棒性
2. 共享低方差基线用全局平均回报代替单轨迹基线训练稳定且收敛更快
3. 多贪心推理 + 实例增强多视角决策、数据增强精度显著提升,推理更快


🧮 五、总体结论

POMO 是一种通用的强化学习框架,能在不依赖人工启发式设计的情况下,自动学习高质量的组合优化求解策略。其优势包括:

  • 纯数据驱动:无需手工规则;

  • 快速稳定训练:低方差更新;

  • 更优推理效果:借助对称性实现多最优学习;

  • 广泛适用性:可扩展至 TSP、CVRP、KP 等多类问题。

🧭 六、POMO 的马尔可夫特性(Markov Property in POMO)

(1)基本概念回顾

在强化学习(RL)中,环境被形式化为一个马尔可夫决策过程(MDP),由五元组 (S,A,P,R,γ) 定义:

  • S:状态空间(state space)

  • A:动作空间(action space)

  • P(s′∣s,a):状态转移概率

  • R(s,a):即时奖励

  • γ:折扣因子

马尔可夫性质(Markov Property) 表示系统的未来状态只依赖于当前状态和当前动作,而与过去历史无关。


(2)在 POMO 中的体现

POMO 仍然遵循马尔可夫性质,只是对传统强化学习的轨迹采样方式进行了改造。

在传统的 REINFORCE 框架下,生成轨迹的方式为:

其中策略 πθ根据当前状态 st(以及历史动作)决定下一个动作。

而在 POMO 中:

  • 同一个问题实例 sss 下,会从多个起始状态(或节点)同时展开多条轨迹

  • 每条轨迹独立遵循马尔可夫性质;

  • 各条轨迹之间互不干扰,只在训练时共享基线(baseline)。

因此,POMO 实际上是在同一个 MDP 环境下进行多次并行采样,每条轨迹都是一个独立的马尔可夫链,只是初始状态不同。


(3)数学视角:多起点马尔可夫过程

POMO 将原始的单起点马尔可夫决策过程扩展为:

其中每个 MDPi拥有相同的状态转移概率 P、奖励函数 R,但起始状态不同。

这种设计带来的好处:

  • 多样化探索,避免策略陷入某一局部最优;

  • 利用多个对称起点的轨迹估计共享期望回报 E[R(τi)],减小方差;

  • 更稳定地逼近最优策略 π∗。


(4)POMO 中的状态与动作定义举例

以旅行商问题(TSP)为例:

  • 状态(State):当前访问的节点序列、剩余未访问节点;

  • 动作(Action):选择下一个访问的节点;

  • 转移(Transition):将所选节点加入路径;

  • 奖励(Reward):负的路径总长度(目标为最小化距离)。

每个起点形成一条独立的马尔可夫路径(trajectory),整个并行过程是多个 MDP 实例的集合。

🧩 七、POMO 的后处理机制(Post-processing in POMO)

(1)后处理的动机

虽然 POMO 在强化学习框架下已经能直接生成高质量的解,但组合优化问题的复杂性决定了:

  • 模型输出的解往往是近似最优

  • 通过一些后处理步骤(post-processing),可进一步优化结果质量。

POMO 的后处理思想来源于传统启发式算法(如 LKH、2-opt),但它在实现上更轻量、更高效,特别是结合了“实例增强”和“多贪心推理”的思路。


(2)主要的后处理方法

POMO 的后处理主要包括以下三种类型:

① 多贪心推理(Multiple Greedy Rollouts)

  • 传统 Attention Model(AM)或 REINFORCE 在推理时,只生成一条贪心路径;

  • POMO 从多个起点(N 个起点)生成 N 条贪心路径

  • 然后从这些路径中选择最优的一个作为最终解。

这种方法本质上是一种多候选解后筛选机制(multi-rollout selection),它能有效避免因起点偏置导致的局部最优。

✅ 效果:在推理阶段不增加训练成本的前提下,性能显著提升,TSP100 的最优性差距从 1.07% 降至 0.14%。


② 实例增强(Instance Augmentation)

  • POMO 借鉴计算机视觉的“测试时增强(Test-time augmentation, TTA)”概念;

  • 对原始问题实例做对称变换(翻转、旋转、坐标交换等),生成多个等价问题;

  • 对每个增强实例分别推理,然后选择最优解作为最终输出

例如在 TSP 中:

  • 将节点坐标进行镜像变换 (x, y) → (1-x, y)

  • 旋转 (x, y) → (y, x)

  • 或对输入顺序重新排序(input reordering);

  • 这些变化不会改变问题的最优路径,但能引导网络探索不同的策略。

✅ 效果:相当于在后处理阶段进行“数据增强”,提高解的多样性与鲁棒性。

🧮八、 POMO 论文中的公式逐条解析

✅ 总结:POMO 中公式的整体逻辑关系

公式编号含义所属阶段关键作用
(1)策略生成训练 & 推理定义策略网络如何生成动作
(2)多起点轨迹定义训练并行生成 N 条轨迹
(3)策略梯度训练计算参数更新方向
(4)共享基线训练降低方差、稳定训练
(5)多轨迹最优选择推理后处理选出最优解
(6)期望回报定义理论目标强化学习优化目标
http://www.dtcms.com/a/503714.html

相关文章:

  • 基本控件-上(Num30)
  • FFmpeg 基本API avcodec_find_decoder函数内部调用流程分析
  • 用wordpress建立学校网站吗淄博公司网站建设效果
  • C++ std::Set<std::pair>
  • 如何解决 pip install -r requirements.txt 私有仓库认证失败 401 Unauthorized 问题
  • LLMs-from-scratch(第3章:编码注意力机制)
  • 江西赣建建设监理网站无锡市建设工程质量监督站网站
  • 如何生成逼真的合成表格数据:独立采样与关联建模方法对比
  • FastGPT 与 MCP 协议概述
  • 软路由系统如何做网站上海做网站seo
  • K8S--ConfigMap的用法
  • Docker 常用命令整理
  • 网站降权原因北京公司车牌指标
  • 【片上网络专题讨论一】 片上总线的发展历程
  • 忘记密码更改ubuntu18.08的密码--前提是要知道用户名work
  • Vue非单文件组件
  • SAP SD 客户信用主数据查询接口分享
  • 斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Lecture 4: Mixtrue of experts
  • 2025最新版Eclipse for Java安装使用指南
  • 写作网站后台账号密码忘了怎么办男女直接做那个的视频网站
  • 基于Spring AI Deep Researcher Agent
  • 海洋承德网站建设公司互联科技 行业网站
  • [嵌入式系统-153]:RS485通信与CAN通信的比较
  • Decoder-Only架构下Decoder的学习
  • Anaconda安装和使用
  • 3.8 JSON Schema 术语回顾
  • 第二次面试:C++qt开发实习生
  • 泰安建设网站哪个好单位网站开发费用进什么科目
  • 【Flume】Flume Learning
  • 和网站设计人员谈价要注意什么那些网站是asp做的