当前位置: 首页 > news >正文

通达oa 做网站wordpress 前台注册登录

通达oa 做网站,wordpress 前台注册登录,wordpress 自定义widget,wordpress私密评论文本主题 关于协作式多智能体强化学习的简介 文章目录 文本主题一、MARL主要框架集中式训练与执行 (CTE)集中式训练分布式执行(CTDE)分布式训练与执行(DTE) 二、Dec-POMDPjoint policy V and Q 一、MARL主要框架 MARL当前主流的…

文本主题

关于协作式多智能体强化学习的简介


文章目录

  • 文本主题
  • 一、MARL主要框架
    • 集中式训练与执行 (CTE)
    • 集中式训练分布式执行(CTDE)
    • 分布式训练与执行(DTE)
  • 二、Dec-POMDP
    • joint policy V and Q


一、MARL主要框架

MARL当前主流的框架分为三种:
centralized training and execution (CTE), centralized training for decentralized execution (CTDE),and decentralized training and execution (DTE)

集中式训练与执行 (CTE)

CTE在训练与执行过程假设能够获取全局的信息,即每个智能体的动作是基于所有智能体的信息得来的,因此可以通过单智能体的算法简单实现(维护一个联合的动作状态空间)。其优势在于协作能力相比于其他的框架效果更优,然而其联合状态空间会随着智能体的增加呈指数型上升造成学习困难,维度爆炸。

CTE仅仅用于合作性质的MARL

集中式训练分布式执行(CTDE)

CTDE是最常用的框架,在训练过程利用全局信息,执行过程每个智能体基于自身观测输出策略,相较于CTE具有良好的拓展性。

经常用于合作场景,也适用于竞争或混合场景

分布式训练与执行(DTE)

DTE在训练与执行过程不需要考虑全局的信息,基于每个智能体自身的信息做出决策,将其他智能体作为环境的一部分,因此任何人RL算法都能够实现DTE框架,然而会带来信用分配以及环境非稳定的问题。

能够用于合作、竞争以及混合场景

后续文章会详细展开每个框架的实现以及优缺点

二、Dec-POMDP

协作式MARL能够被表示为decentralized partially observable Markov decision process (Dec-POMDP),其被定义为多元组 { I , S , [ A i ] , T , R , [ O i ] , O , H , γ } \{I,S,[A_i],T,R,[O_i],O,H,\gamma\} {I,S,[Ai],T,R,[Oi],O,H,γ}
其中含义如下:
在这里插入图片描述

由于全局状态不能直接被观测,因此每个智能体remember自身的history obs以及actions是必要的,局部的历史观测对可以表示为: h i = { a i , 0 , o i , 0 , . . . . , a t , 0 , o t , 0 } h_i=\{a_{i,0},o_{i,0},....,a_{t,0},o_{t,0}\} hi={ai,0,oi,0,....,at,0,ot,0}

joint policy V and Q

在这里插入图片描述

在这里插入图片描述

http://www.dtcms.com/a/442975.html

相关文章:

  • Nuron - Multi Vendor Auctions NFT WooCommerce Theme : WooCommerce
  • 学做美食看哪个网站如何规划一个外贸网站
  • iapp用网站做软件代码飞沐视觉北京网站建设公司
  • wordpress後台小程序seo是什么意思电商
  • Win10如何局域网内共享文件夹给其他电脑
  • 网站建设 小程序制作桂林商品房做民宿在哪个网站登记好
  • 美橙互联同类型网站wordpress 的图片保存在哪
  • 大网站开发费用wordpress 搜索筛选器
  • MySQL笔记---复合查询
  • wordpress 手机网站支付宝360全景图制作
  • 计算机如何生成随机数? 什么是种子?
  • Qemu调试ARM64 linux内核 IOMMU(SMMU)驱动环境搭建
  • 正版宝安网站推广建设电子商务网站市场分析
  • Qt可执行文件打包全流程
  • 大庆免费网站建设公司网站开发平台是什么
  • 做网站用什么空间网络班级网站建设
  • UE5 小知识点 —— 10 - 鼠标操作
  • 西安英文网站建设安丘网站建设报价
  • llama.cpp:本地大模型推理的高性能 C++ 框架
  • 深入浅出kafka:kafka演进指南以及核心功能介绍
  • 天津网站模板建站注册账号怎么弄
  • 郑州网站推广培训设计模板ppt在哪里
  • JS-模块化
  • 商城网站都有什么功能做外贸的免费网站有哪些
  • TDengine 比较函数 IF 用户手册
  • C语言实现一个简易数据库
  • Oracle OCP认证考试题目详解082系列第45题
  • 3D绘图与交互式工具结合:Plotly与Bokeh深度解析
  • Java要被python取代了?3个技术维度拆分分析
  • 【软考-分析】