当前位置: 首页 > wzjs >正文

dede中英文网站关键词优化

dede中英文网站,关键词优化,口碑营销的成功案例,wordpress 文章 接口北航吴文峻老师、罗杰老师团队在 ECAI 2024 上以“Exploiting Hierarchical Symmetry in Multi-Agent Reinforcement Learning”为题发表关于多智能体强化学习中引入层次对称性的论文。该论文提出层次等变策略网络(HEPN)方法,通过利用层次对称…

北航吴文峻老师、罗杰老师团队在 ECAI 2024 上以“Exploiting Hierarchical Symmetry in Multi-Agent Reinforcement Learning”为题发表关于多智能体强化学习中引入层次对称性的论文。该论文提出层次等变策略网络(HEPN)方法,通过利用层次对称性来提升多智能体强化学习算法的样本效率。

NOKOV度量动作捕捉系统用于获取实时环境状态数据(无人车集群位姿数据),验证了本文算法的性能。

引用格式
Tian, Yongkai, et al. “Exploiting Hierarchical Symmetry in Multi-Agent Reinforcement Learning.” ECAI 2024. IOS Press, 2024. 2202-2209.

研究背景
实现高样本效率是强化学习中的一个关键研究领域。在多智能体强化学习(MARL)中,由于联合状态和动作空间的容量随着智能体数量的增加呈指数级增长,这一问题变得极为困难。将对称性引入多智能体强化学习(MARL)是解决这一问题的有效方法。然而,层次对称性的概念——即在多智能体系统(MAS)的不同层级上保持对称性——尚未在现有方法中得到探索。

本文贡献
聚焦多智能体协作任务,本文提出了

  1. 利用 MAS 中层次对称性来提高 MARL 算法样本效率的 HEPN方法。HEPN 被设计用来探索和学习 MAS 的层次结构,同时确保严格的对称性属性。
  2. 旨在更好地挖掘 MAS 中层次结构的分区损失;
  3. 在多个多智能体协作任务中评估了 HEPN 的性能。实验结果表明,HEPN 的收敛速度更快,收敛奖励更高,从而证明了其有效性;
  4. 在物理多机器人环境中部署了 HEPN,证实了其在现实世界中的有效性。
    图1 本文提出的 HEPN 的整体框架,包含三个主要模块:1)等变聚类模块,用于提取多智能体系统中的层次结构,将具有相似性的智能体聚类成组,作为高层系统中的智能体;2)等变重映射模块,用于将高层系统中的信息重映射回低层系统;3)动作模块,用于生成最终的动作输出。
    图1 本文提出的 HEPN 的整体框架,包含三个主要模块:1)等变聚类模块,用于提取多智能体系统中的层次结构,将具有相似性的智能体聚类成组,作为高层系统中的智能体;2)等变重映射模块,用于将高层系统中的信息重映射回低层系统;3)动作模块,用于生成最终的动作输出。

仿真实验
本文将对称性先验(ESP)、多层感知机(MLP,具体为MAPPO)、图神经网络(GraphSAGE)和基于图的协调策略(GCS)作为基线方法,与本文提出的HEPN方法在不同任务、不同智能体数量等方面进行比较。结果表明,本文方法的收敛速度、收敛奖励和收敛效率优于现有技术,并表现出更高的稳定性,以及处理大规模复杂任务的有效性。同时,通过消融实验证明了层次结构的引入在多智能体系统中的复杂任务中有很大帮助,而等变性的考虑显著提升了算法性能。
图2 展示了 HEPN、MLP、GraphSAGE、ESP 和 GCS 在三个任务上的学习曲线。每个实验均采用不同的随机种子重复五次,以确保结果的可靠性。图2 展示了 HEPN、MLP、GraphSAGE、ESP 和 GCS 在三个任务上的学习曲线。每个实验均采用不同的随机种子重复五次,以确保结果的可靠性。
表1 显示了不同数量智能体对不同任务的影响,通过模型的平均收敛奖励来表达表1 显示了不同数量智能体对不同任务的影响,通过模型的平均收敛奖励来表达

现实实验
本文通过Sim2Real的方法评估了算法的性能。将训练好的模型部署到现实环境,使用机器人作为任务智能体,并通过ROS进行控制,再通过NOKOV 度量动作捕捉系统提供无人车位姿数据,以获取实时环境状态。

会和、追捕和资源收集三个任务现实实验展示


为了准确评估算法在现实环境中的性能,本文将 HEPN 与每个任务中表现最佳的基线算法进行比较。结果表明,本文方法能够更快地完成任务,从而证明了 HEPN 在现实场景中的有效性。

NOKOV度量动作捕捉系统用于获取实时环境状态数据(无人车集群位姿数据),验证了本文算法HEPN 在现实实验中的有效性

作者信息
田雍恺,北京航空航天大学计算机学院,博士研究生。主要研究方向:多智能体强化学习、知识内嵌强化学习
于鑫,北京航空航天大学计算机学院,博士研究生。主要研究方向:多智能体强化学习、大模型。
齐逸容,北京航空航天大学计算机学院,硕士研究生。主要研究方向:多智能体强化学习
王力,北京航空航天大学人工智能学院,博士研究生。主要研究方向:多智能体强化学习,大模型推理。
冯埔,北京航空航天大学计算机学院,博士研究生。主要研究方向:多智能体
强化学习、知识内嵌强化学习、群体机器人和多智能体路径规划。
吴文峻,北京航空航天大学人工智能学院教授、博士生导师。主要研究方向:群体智能与多智能体系统、认知建模与智能导学、智能软件工程等。
石荣晔,北京航空航天大学人工智能学院副教授、博士生导师。主要研究方向:领域知识内嵌人工智能算法在物理信息神经网络、多智能体系统、强化学习及其在智慧城市领域的应用。
罗杰,北京航空航天大学计算机学院副教授、博士生导师。主要研究方向:软件版本演化理论、知识图谱表示与推理、群体智能度量理论与汇聚方法等。

http://www.dtcms.com/wzjs/476808.html

相关文章:

  • 怎么做社交网站东莞做网站的联系电话
  • 赣州网站建设信息自己建网站需要多少钱
  • 没网站怎么做二维码扫描连接跨境电商关键词工具
  • 做网站的设计公司搜索网站排行
  • 珠海 旅游 网站建设网络营销案例范文
  • 顺企网我做网站做网站用哪个软件
  • 美国做ppt的网站有哪些网络营销的方式有几种
  • 网站如何做百度百科绍兴seo网站推广
  • 米方科技网站建设企业营销策划实训报告
  • PHP 网站搜索怎么做地推团队去哪里找
  • 用php做网站需要什么网站的开发流程
  • 绵阳市网站建设推广平台网站有哪些
  • 网站建设兼容性谷歌广告
  • 如何看一个站点是不是有wordpress微信营销的案例
  • 和平手机网站建设app推广引流方法
  • 网站建设衡水网站如何让百度收录
  • 做网站还有开发文档吗策划方案网站
  • wap免费网站中国舆情网
  • 小视频网站开发百度官网电话
  • 银川网站设计建设上海seo优化
  • wordpress建产品目录沧州网站建设优化公司
  • 网页设计最重要的是什么山东济南seo整站优化公司
  • 企业网站优化案例seo权重是什么意思
  • 网站设置仅某浏览器seo排名赚app下载
  • 渭南免费做网站公司网络服务提供商是指
  • 医疗类网站哪家做的好谈谈你对seo概念的理解
  • 如何做花店网站社交媒体营销
  • 有哪些做平面设计好素材网站有哪些纹绣培训班一般价格多少
  • 济南网站建设大标网络百度浏览器入口
  • 怎么指导电脑有么有安装wordpress广州宣布5条优化措施