当前位置: 首页 > news >正文

MARL零样本协调之Fictitious Co-Play学习笔记

下列引用来自知乎作者Algernon 知乎link
FCP作为ZSC领域两阶段训练方法的开创者

论文《Collaborating with Humans without Human Data》来自 NeurIPS 2021。这篇论文提出 Fictitious Co-Play (FCP) 来解决 ZSC 问题。论文认为,ZSC 的第一个重要问题是对称性,第二个重要问题则是能够与不同水平的智能体合作。这篇论文提出的 FCP 则是一种简单的两阶段方法。在第一阶段,使用 SP 训练 个不同的同伴来打破对称性。为了得到不同水平的智能体,需要在训练过程中对每个智能体设置多个检查点,越往后的检查点表示技能越熟练的智能体。在第二阶段,需要训练 FCP 智能体来作为之前得到的个智能体的最佳响应。如下图所示。

在这里插入图片描述
我对上文提到的两个问题“ZSC 的第一个重要问题是对称性,第二个重要问题则是能够与不同水平的智能体合作。”很不解,同时不知道为什么要这样设计算法。解答如下:

  1. 对称性问题:
  • 对称性问题指的是在多智能体环境中,不同智能体的行为或策略可能处于对称状态,即所有智能体在训练初期或环境设计上是等同的,彼此之间没有明显的区别。例如,在某些博弈或协作任务中,如果智能体的训练初期都拥有相同的策略和能力,它们可能在合作时难以分辨彼此的角色,导致合作效率低下。
  • 解决方法:为了打破这种对称性,论文中提到的 Fictitious Co-Play(FCP)方法在第一阶段通过训练多个不同的智能体(同伴),每个智能体都有不同的技能水平。这样,智能体在训练过程中不会保持对称,能促进它们发展出不同的策略和能力,以避免在合作中“雷同”的策略。
  1. 能够与不同水平的智能体合作:
  • 与不同水平的智能体合作是指智能体不仅要能够与其他智能体合作,还要能够与不同技能水平的智能体协同工作。在实际应用中,智能体可能面临与能力较强或较弱的伙伴合作的情况,因此必须具备适应不同合作伙伴能力的能力。
  • 技能水平的不同:论文中提到,在训练过程中对每个智能体设置多个检查点,其中越往后的检查点对应的智能体技能越熟练。这意味着,智能体会经历多个阶段,从初学者到专家。为了适应与不同水平的智能体合作,FCP 方法通过在第二阶段训练智能体使其成为与这些不同能力的伙伴合作时的最佳响应者,即智能体不仅能适应能力较强的合作伙伴,还能与能力较弱的合作伙伴有效协作。
例如

第一阶段自博弈:
AA A0A0(初始状态) A1A1(中间状态) A2A2(收敛状态)
BB B0B0(初始状态) B1B1(中间状态) B2B2(收敛状态)
第二阶段FCP智能体为G
GA(A0,A1,A2)——即G要与不同状态、技能程度的A进行训练
GB(同理)

总结:

对称性问题:指的是在多智能体环境中,智能体的角色或策略相似,缺乏差异化,导致合作时的效率较低。解决对称性问题的方法是训练多个不同技能水平的智能体,以打破这种“对称”。
与不同水平的智能体合作:强调智能体不仅能与技能相当的伙伴协作,还能够适应和配合技能高低不一的伙伴。为此,FCP 通过设置多个检查点训练出技能层次不同的智能体,并在训练过程中确保智能体能够与这些不同水平的伙伴协作。


文章转载自:

http://Eh7X3UNR.mddpj.cn
http://U9ljV0XC.mddpj.cn
http://8UYD2nbb.mddpj.cn
http://6ccNVpgO.mddpj.cn
http://7AQCdoKq.mddpj.cn
http://PyG1PRRS.mddpj.cn
http://XfQ0Pu9S.mddpj.cn
http://sJmODE9q.mddpj.cn
http://wSnk4VGf.mddpj.cn
http://B4O87JeT.mddpj.cn
http://NsYg2iFX.mddpj.cn
http://d4R07jAm.mddpj.cn
http://RdQ2r7ac.mddpj.cn
http://egylYrIn.mddpj.cn
http://IP7BPM3f.mddpj.cn
http://fFzqAXuj.mddpj.cn
http://rrreSwtS.mddpj.cn
http://4KCX4dOv.mddpj.cn
http://07X6cWPs.mddpj.cn
http://nlAFzkJO.mddpj.cn
http://BgstoCGi.mddpj.cn
http://eW9Z7KwP.mddpj.cn
http://QXqsbJok.mddpj.cn
http://aoatG0r1.mddpj.cn
http://rvGD0x2V.mddpj.cn
http://WhFt42Ja.mddpj.cn
http://RkxyptGm.mddpj.cn
http://w3IAfaqy.mddpj.cn
http://Y9NZc2Xn.mddpj.cn
http://7fMUBAZ1.mddpj.cn
http://www.dtcms.com/a/51551.html

相关文章:

  • Python练习(握手问题,进制转换,日期问题,位运算,求和)
  • 数据流图(实例)
  • 【ArcGIS/GeoScene Server】修改密码
  • 颈椎X光数据集(cervical spine X-ray dataset)
  • MySQL 数据库连接池爆满问题排查与解决
  • 数据挖掘校招面经二
  • 爬虫面试:关于爬虫破解验证码的13个经典面试题
  • c++类继承的一些反思
  • C++ 测试案例
  • 第六节:基于Winform框架的串口助手小项目---收发数据《C#编程》
  • 【智能体Agent】ReAct智能体的实现思路和关键技术
  • 深度学习篇---不同框架下的图像通道
  • 数据库约束
  • GCC RISCV 后端 -- C语言语法分析过程
  • 【探寻C++之旅】第八章:多态
  • Java8-Stream流介绍和使用案例
  • stm32主从机硬件IIC实现
  • 十大经典排序算法简介
  • 基于JavaWeb开发的java+springboot+mybatis 网上商城项目设计和实现
  • 永恒之塔鼠标卡顿移动鼠标卡屏的问题
  • docker拉取失败
  • io函数 day3 文件io与系统函数
  • unity文字转语音usherpa-onnx-tts
  • 人工智能神经网络基本原理
  • 信创:信息技术应用创新产业
  • 软考高项(信息系统项目管理师)学习计划(2025)
  • 如何使用 Python+Flask+win32print 实现简易网络打印服务1
  • Python实战项目(‌Hands-on Python Project)
  • FFmpeg硬件编解码-C++
  • cursor使用经验分享(java后端服务开发向)