当前位置: 首页 > news >正文

01Introduction

文本主题

关于协作式多智能体强化学习的简介


文章目录

  • 文本主题
  • 一、MARL主要框架
    • 集中式训练与执行 (CTE)
    • 集中式训练分布式执行(CTDE)
    • 分布式训练与执行(DTE)
  • 二、Dec-POMDP
    • joint policy V and Q


一、MARL主要框架

MARL当前主流的框架分为三种:
centralized training and execution (CTE), centralized training for decentralized execution (CTDE),and decentralized training and execution (DTE)

集中式训练与执行 (CTE)

CTE在训练与执行过程假设能够获取全局的信息,即每个智能体的动作是基于所有智能体的信息得来的,因此可以通过单智能体的算法简单实现(维护一个联合的动作状态空间)。其优势在于协作能力相比于其他的框架效果更优,然而其联合状态空间会随着智能体的增加呈指数型上升造成学习困难,维度爆炸。

CTE仅仅用于合作性质的MARL

集中式训练分布式执行(CTDE)

CTDE是最常用的框架,在训练过程利用全局信息,执行过程每个智能体基于自身观测输出策略,相较于CTE具有良好的拓展性。

经常用于合作场景,也适用于竞争或混合场景

分布式训练与执行(DTE)

DTE在训练与执行过程不需要考虑全局的信息,基于每个智能体自身的信息做出决策,将其他智能体作为环境的一部分,因此任何人RL算法都能够实现DTE框架,然而会带来信用分配以及环境非稳定的问题。

能够用于合作、竞争以及混合场景

后续文章会详细展开每个框架的实现以及优缺点

二、Dec-POMDP

协作式MARL能够被表示为decentralized partially observable Markov decision process (Dec-POMDP),其被定义为多元组 { I , S , [ A i ] , T , R , [ O i ] , O , H , γ } \{I,S,[A_i],T,R,[O_i],O,H,\gamma\} {I,S,[Ai],T,R,[Oi],O,H,γ}
其中含义如下:
在这里插入图片描述

由于全局状态不能直接被观测,因此每个智能体remember自身的history obs以及actions是必要的,局部的历史观测对可以表示为: h i = { a i , 0 , o i , 0 , . . . . , a t , 0 , o t , 0 } h_i=\{a_{i,0},o_{i,0},....,a_{t,0},o_{t,0}\} hi={ai,0,oi,0,....,at,0,ot,0}

joint policy V and Q

在这里插入图片描述

在这里插入图片描述

相关文章:

  • 《汽车噪声控制》复习重点
  • 用Deepseek分析生产环境om问题
  • 背单词软件开发英语app开发,超级单词表开发,河南数匠软件开发
  • 对称二叉树(简单)
  • FPGA图像处理(二)-----彩色图像灰度化
  • 嵌入式音视频通话EasyRTC基于WebRTC技术驱动智能带屏音箱:开启智能交互新体验
  • 注意力(Attention)机制详解(附代码)
  • 旧版谷歌浏览器Chrome v116.0.5845.141下载
  • 苍穹外卖(订单状态定时处理、来单提醒和客户催单)
  • #黑马点评#(三)缓存穿透/雪崩/击穿
  • 【计算机基础】任意进制转换方法详解
  • C++ 基础复习
  • blender云渲染指南2025版
  • 如何在本地测试网站运行情况
  • 面试高频算法:最长回文子串
  • OpenCV 中用于背景分割(背景建模)的一个类cv::bgsegm::BackgroundSubtractorGSOC
  • windows10 环境下通过huggingface_hub下载huggingface社区模型
  • 碰一碰发视频源码搭建的技术迭代与升级实践
  • 金融小知识
  • 【AI入门】CherryStudio入门3:结合FastMCP创建自己的MCP服务,实现哔哩视频查询
  • 雷军:过去一个多月是创办小米以来最艰难的时间
  • 方正证券总裁何亚刚到龄退休,54岁副总裁姜志军接棒
  • 央行:中国政府债务扩张仍有可持续性
  • 2025中国品牌日上海践行活动启动,将建设品牌生态交互平台
  • 国家税务总局泰安市税务局:山东泰山啤酒公司欠税超536万元
  • 暴利之下:宠物殡葬行业的冰与火之歌