当前位置: 首页 > news >正文

论文略读:If Multi-Agent Debate is the Answer, What is the Question?

202502 arxiv

1 intro

  • 多智能体辩论(Multi-Agent Debate, MAD):通过让多个智能体在大模型推理时展开多轮辩论,可提升生成内容的事实准确性和推理质量
    • 但论文认为,目前多智能体辩论在大多数情况下不敌简单的单智能体方法 Chain-Of-Thought
      • 在 36 种实验配置(覆盖 9 个常见数据集与 4 种大模型)中,MAD 的胜率不足 20%
  • ——>论文提出Heter-MAD,通过简单引入异构模型智能体,无需修改现有 MAD 框架即可稳定提升性能(最高达 30%)

2 主要结论

  • 选取了 
    • 5 种具有代表性的 MAD 框架
      • SoM、MP、EoT、ChatEval 和 AgentVerse
    • 9 个涵盖通用知识、数学推理和编程能力的基准数据集
    •  4 个基础模型
      • GPT-4o-mini、Claude-3.5-haiku、Llama3.1-8b/70b
    • 两种baseline
      • Chain-of-Thought;self-consistency
    • 评估指标
      • 性能、效率和鲁棒性

  • 在 36 个测试场景中,MAD 方法仅在不到 20% 的情况下优于CoT,更别说SC了

  • MAD 方法消耗了更多的 token,但未能带来稳定的性能提升        

  • 增加智能体数量或辩论轮次并未显著改善 MAD 的表现

3 异构MAD效果

  • 论文认为,人类协作成功的关键在于个体多样性
    • 但现有 MAD 方法大多使用同一模型的多个实例进行评测,忽视了模型多样性可能带来的性能提升
  • ——>提出了 Heter-MAD 方法:在MAD 框架中,每个 LLM 智能体随机从异构模型池中选择模型生成答案
    • 无需改变现有 MAD 框架结构,却能显著且稳定地提升性能

文章转载自:

http://Ay1Qsojq.ftzLL.cn
http://R7HjSToS.ftzLL.cn
http://cfOBpiJy.ftzLL.cn
http://81nCua1q.ftzLL.cn
http://TPEWlhwt.ftzLL.cn
http://KSV13c8B.ftzLL.cn
http://TDC4tEWb.ftzLL.cn
http://ac7G4FC0.ftzLL.cn
http://2grRPOQF.ftzLL.cn
http://L8qmET8N.ftzLL.cn
http://QdjeIFnL.ftzLL.cn
http://C62r9Arj.ftzLL.cn
http://IVsu7foF.ftzLL.cn
http://i3nZaDaQ.ftzLL.cn
http://Gj18V2wh.ftzLL.cn
http://kTer7VLF.ftzLL.cn
http://30FiG5kq.ftzLL.cn
http://hYEeG3nu.ftzLL.cn
http://fmltY2co.ftzLL.cn
http://vraI4wn9.ftzLL.cn
http://GyJFT62o.ftzLL.cn
http://ZCILX0Ys.ftzLL.cn
http://ARvaXSqz.ftzLL.cn
http://zS4zil5P.ftzLL.cn
http://ntSCAFeG.ftzLL.cn
http://5GOZO6dZ.ftzLL.cn
http://yZ0SCoZt.ftzLL.cn
http://tdvTjgjr.ftzLL.cn
http://3VxOEZkR.ftzLL.cn
http://3gMrNGbS.ftzLL.cn
http://www.dtcms.com/a/207986.html

相关文章:

  • Android11以上通过adb复制文件到内置存储让文件管理器可见
  • 04-jenkins学习之旅-java后端项目部署实践
  • 根据Cortex-M3(STM32F1)权威指南讲解MCU内存架构与如何查看编译器生成的地址具体位置
  • 8级-数组
  • python定时删除指定索引
  • 2025年高防IP与游戏盾深度对比:如何选择最佳防护方案?
  • Jenkins 构建日志统一上报:企业级 DevOps 管理实践
  • Jenkins
  • 基于微信小程序的智能问卷调查系统设计与实现(源码+定制+解答)基于微信生态的问卷管理与数据分析系统设计
  • 游戏引擎学习第308天:调试循环检测
  • 基于Rust语言的Rocket框架和Sqlx库开发WebAPI项目记录(五)
  • PaddleX 使用案例
  • 【Hadoop】Hadoop 的入门概述
  • kafka吞吐量提升总结
  • ATGM332D-F8N22单北斗多频定位导航模块
  • 自动生成md文件以及config.mjs文件-vitepress
  • Docker部署Zookeeper集群
  • 技术服务业-首套运营商网络路由5G SA测试专网搭建完成并对外提供服务
  • 分布式缓存:缓存的三种读写模式及分类
  • Flume的大概简单介绍
  • AGV(自动导引车)通信协议及通信链路性能需求分析
  • 移远三款主流5G模块RM500U,RM520N,RG200U比较
  • RK3588 Opencv-ffmpeg-rkmpp-rkrga编译与测试
  • EasyRTC音视频实时通话WebP2P技术赋能的全场景实时通信解决方案
  • 力扣-最大连续一的个数
  • 力扣-将x减到0的最小操作数
  • 【时时三省】(C语言基础)对被调用函数的声明和函数原型
  • [特殊字符] GUNION SDK 接口调用方式说明(静态库 vs 动态库)
  • C/C++的OpenCV 进行图像梯度提取
  • 并发容器(Collections)