当前位置: 首页 > news >正文

评估agent能力benchmark收集汇总

agent是目前LLM时代的新事物,借助于LLM,agent能智能调用多种工具完成复杂任务。

这里收集评估agent能力的benchmark,尝试从多个角度了解和应用agent解决实际问题。

1 MMTB

Multi-Mission Tool Bench,MMTB),25.04


MMTB是腾讯结合自家很多业务场景和工具,构建出来的agent评估工具,主要关注“多任务”和“工具使用”,根据不同目标,灵活地调用不同工具(API、函数库、外部应用等)来完成任务,即Agent 面对复杂指令时,能否理解意图、规划步骤、选择合适的工具、正确地调用并处理返回结果,以及在多个任务间切换和协调的能力,

MMTB强调任务的复合性工具实用性,贴近现实世界中需要组合多种能力才能解决的问题场景。

Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions

https://arxiv.org/abs/2504.02623

MMTB

https://github.com/yupeijei1997/MMTB

2 BFCL-V3

BFCL-V3,Berkeley Function Calling Leaderboard

BFCL - Function Calling Leaderboard,专注于评估大模型进行函数调用的能力,整合了多个专注于函数调用的数据集和评估方法,并非端到端Agent任务执行Benchmark。

BFCL主要评估模型能否准确讲自然语言指令转化为函数调用,能否正确地提取和格式化参数,能否处理复杂的嵌套调用、并发调用、条件调用。

BFCL通过细粒度的评估,能很好地横向比较不同模型在这一核心技能上的优劣。

BFCL较少涉及任务规划、多步推理、结果校验、根据反馈调整策略。

(BFCL V3 • Multi-Turn & Multi-Step Function Calling Evaluation)

https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

🦍 Gorilla: Large Language Model Connected with Massive APIs

https://github.com/ShishirPatil/gorilla/tree/main

3 Tau-Bench

Tau-Bench关注Agent在动态环境中的反应与适应能力,评估Agent在不断变化的任务和场景中的实时决策和快速调整的应变能力Tau-Bench对时间敏感型任务,如实时游戏、自动驾驶更有价值。

tau-bench

https://github.com/sierra-research/tau-bench

τ2-Bench: Evaluating Conversational Agents in a Dual-Control Environment

https://arxiv.org/abs/2506.07982

4 AgentBench

AgentBench是一个综合的agent benchmark套件,从多个维度如操作系统操作、数据库操作、知识图谱查询、游戏、网页浏览等评估Agent 的能力,评估相对更全面。

AgentBench

https://github.com/THUDM/AgentBench

AgentBench: Evaluating LLMs as Agents

https://arxiv.org/abs/2308.03688

5 WebArena/WebVoyager

WebArena、WebVoyager专注于评估 Agent 在真实网页环境中完成复杂任务的能力,比如预订机票、在线购物、查找信息等。

该类benchmark测试Agent的视觉理解、HTML 解析、交互鲁棒性。更接近真实应用世界。

webarena

https://github.com/web-arena-x/webarena

WebArena: A Realistic Web Environment for Building Autonomous Agents

https://arxiv.org/abs/2307.13854

WebVoyager

https://github.com/MinorJerry/WebVoyager

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

https://arxiv.org/abs/2401.13919

6 SWE-Bench

SWE-bench专注于评估agent解决真实github仓库项目的软件问题,如修复 bug、添加功能。

SWE-Bench是代码生成领域评估Agent能力的重要标准。

swe-bench

https://www.swebench.com/

SWE-bench

https://github.com/swe-bench/SWE-bench

SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?

https://arxiv.org/pdf/2410.03859

7 Mind2Web

Mind2Web则针对跨网站复杂任务,评估Agent能否理解高层指令,并在多个不同网站之间导航,以交互的方式完成目标。

Mind2Web

https://github.com/OSU-NLP-Group/Mind2Web

Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

https://arxiv.org/abs/2506.21506

Mind2Web-2

https://osu-nlp-group.github.io/Mind2Web-2/

Mind2Web-2

https://github.com/OSU-NLP-Group/Mind2Web-2

总结

这些 benchmark对比不同方法、不同模型之间的相对优劣,也能测出Agent在特定技能上的表现,比如工具调用、信息检索、代码生成等。benchmark 环境通常是简化、净化过的,而真实世界充满了噪声、歧义、不确定性、动态变化,API 可能不稳定、文档可能过时、用户需求可能反复无常。benchmark也会不断进化,适应越来越复杂的真实世界场景。

reference

---

现在评估Agent有哪些有代表性的Benchmark?

https://www.zhihu.com/question/1890240528236393875/answer/1890257521496794046

http://www.dtcms.com/a/549695.html

相关文章:

  • 番禺五屏网站建设西安网站建设xs029
  • 深入剖析 Rust `HashMap`:安全哈希 (SipHash) 与高性能冲突处理 (Swiss Table)
  • 一款漏洞库批量下载更新工具,便于在离线情况下漏洞的访问检索
  • 做任务的网站源码活动线报资源网
  • 【Oceanbase】OceanBase批量写入性能优化实战:转储、日志归档、多并发
  • 企业网站制作要求免费的企业网站
  • 9-SpringCloud-服务网关 Gateway-高级特性之 Filter-1
  • 服务器数据恢复—重装导致reiserfs中损坏数据如何复活?
  • RabbitMQ实现原理深度解析:从AMQP协议到高可用集群
  • ceph mgr 开启 telegraf 模块监控(influxdb+telegraf)
  • (107页PPT)园区大数据治理解决方案(附下载方式)
  • 59一起做网站备案通过 网站打不开
  • 上海团购网站建设北京网站优化企业
  • 基础算法精讲 08|前后指针|链表
  • 16.零基础入门——关于ArcCatalog基本内容介绍
  • 嵌入式 Linux 开发核心流程(含应用运行、联网、内核移植与编译,向内核添加新文件)
  • C#面试题及详细答案120道(41-50)-- 异常处理
  • Shell实用实例1000例3
  • 定制型网站一般价格水利厅网站集约化建设
  • 基于SpringBoot+Vue的助农扶贫平台(AI问答、WebSocket实时聊天、快递物流API、协同过滤算法、Echarts图形化分析、分享链接到微博)
  • 5-27 WPS JS宏数组元素添加删除应用2
  • 网站字体样式wordpress iis伪静态
  • YouBallin:重塑去中心化创作者平台的声誉体系
  • 云手机存在的意义是什么
  • 360免费wifi安全吗网站建设html代码优化
  • 长安大学门户网站是谁给做的石墨网站开发
  • xtuoj Digit String
  • 【代码随想录算法训练营——Day53】图论——110.字符串接龙、105.有向图的完全可达性、106.岛屿的周长
  • 【代码审计】ECShop_V4.1.19 SQL注入漏洞 分析
  • 桐城市住房和城乡建设局网站广东网广东网站建设