当前位置: 首页 > wzjs >正文

龙岗南联网站建设陕西中洋建设有限公司网站

龙岗南联网站建设,陕西中洋建设有限公司网站,营销型企业网站建设价格,广告网站建设与制作公司我们来详细讲解如何在合作捕食者-猎物游戏中结合 PPO (Proximal Policy Optimization) 算法。我们将聚焦于 CTDE(Centralized Training, Decentralized Execution,集中训练、分散执行) 模式,因为这是处理合作多 Agent 任务的常用且…

我们来详细讲解如何在合作捕食者-猎物游戏中结合 PPO (Proximal Policy Optimization) 算法。我们将聚焦于 CTDE(Centralized Training, Decentralized Execution,集中训练、分散执行) 模式,因为这是处理合作多 Agent 任务的常用且有效的方法。

CTDE(Centralized Training, Decentralized Execution,集中训练、分散执行)模式是一种在人工智能、机器人系统、多智能体协作等领域广泛应用的框架,其核心思想是通过 “集中式训练” 提升系统性能,再通过 “分散式执行” 确保系统的灵活性、效率和鲁棒性。


合作捕食者-猎物游戏回顾

游戏目标

我们的目标是训练多个 捕食者 Agent协作捕捉一个或多个 猎物 Agent。当所有捕食者 Agent 将猎物完全围堵,使其无法移动时,即视为捕获成功。

游戏元素

  • 环境:一个网格地图,可能有障碍物。
  • 捕食者 Agent (NPN_PNP 个):我们的学习主体,例如 3 个捕食者。它们需要学习如何互相配合。
  • 猎物 Agent (NEN_ENE 个):被捕获的目标,例如 1 个猎物。为了简化,猎物可以采取随机移动、逃跑策略,或者是一个不会学习的简单 AI。
  • 状态
    • 每个捕食者的局部观测 (oio_ioi):例如,捕食者 iii 的当前位置、它周围一小块区域内的障碍物、其他捕食者和猎物的位置。
    • 全局状态 (sgs_gsg):所有 Agent 的完整位置信息,环境中的所有障碍物位置等。这个全局状态在训练时会被中央 Critic 使用。
  • 动作 (aia_iai):每个捕食者 Agent 可以选择向上、下、左、右移动一格,或保持不动。
  • 奖励 (RtR_tRt)
    • 捕获奖励:如果所有捕食者成功捕获猎物,所有捕食者都获得一个大的正奖励(例如 +100+100+100)。
    • 时间惩罚:每过一个时间步,所有捕食者都受到一个小小的负奖励(例如 −1-11),鼓励它们尽快完成任务。
    • 碰撞惩罚 (可选):Agent 之间或 Agent 与障碍物碰撞时,给予小额惩罚。

结合 PPO 的 CTDE 模式

PPO 是一种 On-Policy 算法,它通过限制每次策略更新的幅度来提高训练稳定性。在 CTDE 模式下,我们将利用一个中心化的 Critic 来评估全局状态,为去中心化的 Actor (策略网络) 提供更准确的指导。

1. 神经网络架构

我们将为每个捕食者 Agent 设计一个策略网络 (Actor) 和一个共享的价值网络 (Critic)。

同质 (Homogeneous) Agent:指所有捕食者 Agent 在功能上、能力上和目标上都完全相同。它们执行相同的动作集,接收相同类型的观测,并且都在为相同的团队目标而努力。
异质 (Heterogeneous) Agent:指 Agent在功能、能力或角色上存在差异。例如,一个捕食者是“速度型”,另一个是“力量型”,或者它们被明确分配了不同的子任务(如一个专门堵左边,一个专门追击)。

a. 策略网络 (Actor) πθi(ai∣oi)\pi_{\theta_i}(a_i | o_i)πθi(aioi)
  • 每个捕食者 Agent 都有一个自己的 Actor 网络(如果 Agent 是异质的),或者所有 Agent 共享一个 Actor 网络(如果它们是同质的)。
  • 输入:每个 Actor 接收其局部观测 oio_ioi
  • 输出:当前 Agent iii 在给定观测 oio_ioi 下采取每个可能动作的概率分布
    • 例如,一个小型 MLP(多层感知机)或 CNN(如果观测是网格图像)。
    • 通过 softmax 激活层将输出转换为概率。
b. 价值网络 (Critic) Vϕ(sg)V_\phi(s_g)Vϕ(sg)
  • 一个中心化的 Critic 网络,所有捕食者 Agent 共享这个 Critic。
  • 输入全局状态 sgs_gsg(或所有 Agent 的局部观测拼接在一起)。
    • 这样 Critic 就能看到整个游戏的局面,从而更准确地评估当前状态的价值。
  • 输出:一个单一的标量值,预测当前全局状态下的预期总奖励
    • 这通常也是一个 MLP。

2. PPO 训练流程 (CTDE 模式)

PPO 的训练是一个迭代过程:收集数据 -> 计算损失 -> 更新网络 -> 重新收集数据。

步骤 1:数据收集 (去中心化执行)
  1. 初始化环境:将捕食者和猎物 Agent 放置在地图上。
  2. 迭代模拟
    • 对于每个时间步 ttt,每个捕食者 Agent iii 根据其当前的策略网络 πθi\pi_{\theta_i}πθi,接收局部观测 oi,to_{i,t}oi,t,并从中采样一个动作 ai,ta_{i,t}ai,t
    • 记录每个 Agent 的动作概率 P(ai,t∣oi,t)P(a_{i,t} | o_{i,t})P(ai,toi,t) (来自 πθi\pi_{\theta_i}πθi 的输出)。这些是我们的 πθold\pi_{\theta_{\text{old}}}πθold 的概率。
    • 执行所有 Agent 的动作 a1:NP,ta_{1:N_P,t}a1:NP,t,环境转移到新状态,并给出团队奖励 RtR_tRt
    • 收集一整条轨迹 (episode),或者达到预设的步数(例如 KKK 步),然后将这些数据存入一个经验缓冲区。存储的内容包括:(oi,t,ai,t,Rt,P(ai,t∣oi,t))(o_{i,t}, a_{i,t}, R_t, P(a_{i,t} | o_{i,t}))(oi,t,ai,t,Rt,P(ai,toi,t)) 对于每个 Agent iii
    • 重要提示:这里的 RtR_tRt 是所有 Agent 共同获得的团队奖励。
步骤 2:计算优势函数 (Advantage Function)

在 PPO 中,我们使用优势函数 A^t\hat{A}_tA^t 来衡量一个动作相对于平均水平的好坏。在 CTDE 中,我们用中心化的 Critic 来帮助计算这个优势。

  1. 计算目标价值 (VtargetV_{\text{target}}Vtarget):对于轨迹中的每个时间步 ttt,目标价值 VtargetV_{\text{target}}Vtarget 可以通过折扣累积奖励计算(即 Rt+γRt+1+γ2Rt+2+…R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \dotsRt+γRt+1+γ2Rt+2+),或者更常用的是使用 GAE (Generalized Advantage Estimation)广义优势估计 来平滑估计。
    • GAE 公式
      δt=Rt+γVϕ(sg,t+1)−Vϕ(sg,t)\delta_t = R_t + \gamma V_\phi(s_{g,t+1}) - V_\phi(s_{g,t})δt=Rt+γVϕ(sg,t+1)Vϕ(sg,t)
      A^t=δt+γλδt+1+(γλ)2δt+2+…\hat{A}_t = \delta_t + \gamma \lambda \delta_{t+1} + (\gamma \lambda)^2 \delta_{t+2} + \dotsA^t=δt+γλδt+1+(γλ)2δt+2+
      其中 RtR_tRt 是在 ttt 时刻的团队奖励,γ\gammaγ 是折扣因子,λ\lambdaλ 是 GAE 参数。
    • 关键点:这里的 Vϕ(sg,t)V_\phi(s_{g,t})Vϕ(sg,t) 是由中心化的 Critic 网络全局状态 sg,ts_{g,t}sg,t 上预测的值。这是 CTDE 的核心,Critic 利用全局信息提供更准确的价值评估,帮助 Actor 计算更可靠的优势。
步骤 3:计算 PPO 损失并更新网络

从经验缓冲区中采样一批数据,然后进行 EEE 个 epoch 的训练。

  1. 计算策略损失 (Policy Loss) LpolicyL^{\text{policy}}Lpolicy

    • 对于每个 Agent iii,在时间步 ttt
      • 从当前的策略网络 πθi\pi_{\theta_i}πθi 计算动作 ai,ta_{i,t}ai,t 的新概率 Pnew(ai,t∣oi,t)P_{\text{new}}(a_{i,t} | o_{i,t})Pnew(ai,toi,t)
      • 计算策略概率比 rt=Pnew(ai,t∣oi,t)Pold(ai,t∣oi,t)r_t = \frac{P_{\text{new}}(a_{i,t} | o_{i,t})}{P_{\text{old}}(a_{i,t} | o_{i,t})}rt=Pold(ai,toi,t)Pnew(ai,toi,t)。这里的 PoldP_{\text{old}}Pold 是在数据收集阶段记录的概率。
      • 应用 Clipped Surrogate Objective:
        Lipolicy=−Et[min⁡(rtA^t,clip(rt,1−ϵ,1+ϵ)A^t)]L^{\text{policy}}_i = -\mathbb{E}_t \left[ \min \left( r_t \hat{A}_t, \text{clip}(r_t, 1 - \epsilon, 1 + \epsilon) \hat{A}_t \right) \right]Lipolicy=Et[min(rtA^t,clip(rt,1ϵ,1+ϵ)A^t)]
        注意,每个 Agent 的策略损失都使用相同的 A^t\hat{A}_tA^t,因为 A^t\hat{A}_tA^t 是基于团队奖励和中心化 Critic 估算的。
    • 总策略损失:所有 Agent 的策略损失之和 Lpolicy=∑i=1NPLipolicyL^{\text{policy}} = \sum_{i=1}^{N_P} L^{\text{policy}}_iLpolicy=i=1NPLipolicy
  2. 计算价值损失 (Value Loss) LvalueL^{\text{value}}Lvalue

    • 使用中心化 Critic 网络 VϕV_\phiVϕ 预测当前全局状态 sg,ts_{g,t}sg,t 的价值 Vϕ(sg,t)V_\phi(s_{g,t})Vϕ(sg,t)
    • 计算均方误差损失:
      Lvalue=Et[(Vϕ(sg,t)−Vtarget(sg,t))2]L^{\text{value}} = \mathbb{E}_t \left[ \left( V_\phi(s_{g,t}) - V_{\text{target}}(s_{g,t}) \right)^2 \right]Lvalue=Et[(Vϕ(sg,t)Vtarget(sg,t))2]
      其中 Vtarget(sg,t)V_{\text{target}}(s_{g,t})Vtarget(sg,t) 可以是 GAE 计算出的 Rt+γVϕ(sg,t+1)R_t + \gamma V_\phi(s_{g,t+1})Rt+γVϕ(sg,t+1)
  3. 熵奖励 (Entropy Bonus)

    • 为了鼓励探索,我们通常会加入一个熵奖励项 H(πθi)H(\pi_{\theta_i})H(πθi) 到策略损失中。
    • H(πθi)H(\pi_{\theta_i})H(πθi) 是 Agent iii 策略的熵,熵越高表示策略越随机。
    • 总损失中会减去这个项:−c2⋅∑i=1NPH(πθi)-c_2 \cdot \sum_{i=1}^{N_P} H(\pi_{\theta_i})c2i=1NPH(πθi)
  4. 总损失函数 LLL
    L=Lpolicy+c1⋅Lvalue−c2⋅∑i=1NPH(πθi)L = L^{\text{policy}} + c_1 \cdot L^{\text{value}} - c_2 \cdot \sum_{i=1}^{N_P} H(\pi_{\theta_i})L=Lpolicy+c1Lvaluec2i=1NPH(πθi)
    其中 c1,c2c_1, c_2c1,c2 是超参数,用于平衡不同损失项的重要性。

  5. 优化:使用 Adam 等优化器对总损失 LLL 进行反向传播,更新所有 Actor 网络 θi\theta_iθi 和 Critic 网络 ϕ\phiϕ 的参数。

步骤 4:重复
  • 训练 EEE 个 epoch 后,丢弃经验缓冲区中的旧数据
  • 返回步骤 1,使用更新后的策略网络重新收集新的数据

为什么 CTDE PPO 适合这个游戏?

  • 处理非平稳性:虽然每个 Agent 独立执行,但中心化的 Critic 能够看到所有 Agent 的行为和全局环境,这使得它能够更好地处理其他 Agent 策略变化带来的环境非平稳性。
  • 信用分配:通过使用统一的团队奖励和中心化的价值函数,PPO 能够将成功的团队行为的奖励有效分配给每个 Agent,即使单个 Agent 的贡献在局部观测下不明显。
  • PPO 的稳定性:PPO 固有的策略截断机制有助于防止策略更新过大,这在多 Agent 环境中尤其重要,因为环境的动态性更高。

实现上的关键点

  • 环境接口:确保你的环境能为每个 Agent 提供其局部观测,并能接收所有 Agent 的动作。
  • 并行化:为了提高数据收集效率,可以并行运行多个环境实例,让多个 Agent 同时进行探索。
  • 超参数调优:PPO 的性能对超参数(学习率、γ,λ,ϵ,c1,c2\gamma, \lambda, \epsilon, c_1, c_2γ,λ,ϵ,c1,c2)比较敏感,需要仔细调优。

这个例子提供了一个扎实的基础,能够理解 PPO 在合作多 Agent 环境中的应用。随着你对这个例子的理解加深,你可以尝试更复杂的合作任务,引入更聪明的猎物,或者探索其他 MARL 算法。


文章转载自:

http://IUqF18ue.Lggng.cn
http://nTe6CnV7.Lggng.cn
http://PKMADllB.Lggng.cn
http://Er0zciKe.Lggng.cn
http://k3iiqoAB.Lggng.cn
http://lBdxUvkq.Lggng.cn
http://219uFFpZ.Lggng.cn
http://a8AjtMcy.Lggng.cn
http://CMSIviIg.Lggng.cn
http://Nx4aA1Cp.Lggng.cn
http://Ma6YrVc1.Lggng.cn
http://wiuzvMrK.Lggng.cn
http://RFSMorS2.Lggng.cn
http://9sb876P9.Lggng.cn
http://ejXAo8EE.Lggng.cn
http://DRkYdApV.Lggng.cn
http://RoAE9jxB.Lggng.cn
http://PbCTSWce.Lggng.cn
http://lDb7Kbxd.Lggng.cn
http://54mBL6J4.Lggng.cn
http://vqeXEZXx.Lggng.cn
http://H0Zkjj1p.Lggng.cn
http://DRUlFhOg.Lggng.cn
http://S0ziC42M.Lggng.cn
http://dwpVBmOj.Lggng.cn
http://O6VZAgAJ.Lggng.cn
http://RjJUu6xq.Lggng.cn
http://QATrXGx6.Lggng.cn
http://APcnEOsR.Lggng.cn
http://JMADWLaL.Lggng.cn
http://www.dtcms.com/wzjs/744108.html

相关文章:

  • 河南网站推广电话wordpress主题汉化插件下载
  • 专业的网站设计制作甘肃兰州
  • 做自媒体哪家网站好网站建设实施流程
  • 企业网站建设需求分析如何提高网站点击率怎么做
  • 网站系统怎么建设wordpress手机版登录
  • 小吃培训网站源码seo是什么意思怎么读
  • 做app网站建设专做品质游的网站
  • 网站登陆模板全球速卖通是正规平台吗
  • 纯文本网站连接怎么做网站推广怎么样
  • 网站后台 添加用户企业营销型网站特点
  • 网站建设情况总结中国新闻社待遇
  • 剑三代售网站怎么做php钓鱼网站怎么做视频教程
  • 做家电维修网站能接到单吗wordpress付费知识
  • 西山区城市建设局网站最好看免费观看高清大全大理寺少
  • 潮州营销型网站建设推广百度公司做网站服务
  • 中国制造网官方网站国际站世安建设集团有限公司网站
  • 营销网站的关键字郑州东区网站优化公司推荐
  • 公司网站建设多少费用哪儿济南兴田德润联系电话竞价网站做招商加盟可以不备案吗
  • 如何设计公司网站wordpress page 分页
  • 企业3合1网站建设公司甘肃公司网站建设哪家好
  • 网站产品页面浙江省建设监理管理协会网站
  • 南昌网站建设品牌引流推广
  • 做爰免费视频网站昆明企业网站开发
  • 有些人做网站不用钱的,对吗?专门做推广的网站
  • 深圳做网站公司有那些wordpress连接数据库文件
  • 洛阳建设网站公司有前景的网站建设
  • 网站权重有什么用微网站一键通话
  • 东莞 网站设计化妆品营销型网站模板下载
  • 无锡做网站f7wl建设网站需要哪些硬件
  • j建设银行查数据的网站网站粘度