当前位置：首页 > news >正文

论文略读：If Multi-Agent Debate is the Answer, What is the Question?

news 2025/11/1 17:29:35

202502 arxiv

1 intro

多智能体辩论（Multi-Agent Debate, MAD）：通过让多个智能体在大模型推理时展开多轮辩论，可提升生成内容的事实准确性和推理质量
- 但论文认为，目前多智能体辩论在大多数情况下不敌简单的单智能体方法 Chain-Of-Thought
  - 在 36 种实验配置（覆盖 9 个常见数据集与 4 种大模型）中，MAD 的胜率不足 20%。
——>论文提出Heter-MAD，通过简单引入异构模型智能体，无需修改现有 MAD 框架即可稳定提升性能（最高达 30%）

2 主要结论

选取了
- 5 种具有代表性的 MAD 框架
  - SoM、MP、EoT、ChatEval 和 AgentVerse
- 9 个涵盖通用知识、数学推理和编程能力的基准数据集
- 4 个基础模型
  - GPT-4o-mini、Claude-3.5-haiku、Llama3.1-8b/70b
- 两种baseline
  - Chain-of-Thought；self-consistency
- 评估指标
  - 性能、效率和鲁棒性

在 36 个测试场景中，MAD 方法仅在不到 20% 的情况下优于CoT，更别说SC了

MAD 方法消耗了更多的 token，但未能带来稳定的性能提升

增加智能体数量或辩论轮次并未显著改善 MAD 的表现

3 异构MAD效果

论文认为，人类协作成功的关键在于个体多样性
- 但现有 MAD 方法大多使用同一模型的多个实例进行评测，忽视了模型多样性可能带来的性能提升
——>提出了 Heter-MAD 方法：在MAD 框架中，每个 LLM 智能体随机从异构模型池中选择模型生成答案
- 无需改变现有 MAD 框架结构，却能显著且稳定地提升性能

http://www.dtcms.com/a/207986.html

相关文章：

Android11以上通过adb复制文件到内置存储让文件管理器可见

04-jenkins学习之旅-java后端项目部署实践

根据Cortex-M3（STM32F1）权威指南讲解MCU内存架构与如何查看编译器生成的地址具体位置

8级-数组

python定时删除指定索引

2025年高防IP与游戏盾深度对比：如何选择最佳防护方案？

Jenkins 构建日志统一上报：企业级 DevOps 管理实践

Jenkins

基于微信小程序的智能问卷调查系统设计与实现(源码+定制+解答）基于微信生态的问卷管理与数据分析系统设计

游戏引擎学习第308天:调试循环检测

基于Rust语言的Rocket框架和Sqlx库开发WebAPI项目记录（五）

PaddleX 使用案例

【Hadoop】Hadoop 的入门概述

kafka吞吐量提升总结

ATGM332D-F8N22单北斗多频定位导航模块

自动生成md文件以及config.mjs文件-vitepress

Docker部署Zookeeper集群

技术服务业-首套运营商网络路由5G SA测试专网搭建完成并对外提供服务

分布式缓存：缓存的三种读写模式及分类

Flume的大概简单介绍

AGV（自动导引车）通信协议及通信链路性能需求分析

移远三款主流5G模块RM500U，RM520N，RG200U比较

RK3588 Opencv-ffmpeg-rkmpp-rkrga编译与测试

EasyRTC音视频实时通话WebP2P技术赋能的全场景实时通信解决方案

力扣-最大连续一的个数

力扣-将x减到0的最小操作数

【时时三省】(C语言基础)对被调用函数的声明和函数原型

[特殊字符] GUNION SDK 接口调用方式说明（静态库 vs 动态库）

C/C++的OpenCV 进行图像梯度提取

并发容器（Collections）