当前位置：首页 > news >正文

评估agent能力benchmark收集汇总

news 2025/10/31 10:28:50

agent是目前LLM时代的新事物，借助于LLM，agent能智能调用多种工具完成复杂任务。

这里收集评估agent能力的benchmark，尝试从多个角度了解和应用agent解决实际问题。

1 MMTB

Multi-Mission Tool Bench，MMTB)，25.04

MMTB是腾讯结合自家很多业务场景和工具，构建出来的agent评估工具，主要关注“多任务”和“工具使用”，根据不同目标，灵活地调用不同工具（API、函数库、外部应用等）来完成任务，即Agent 面对复杂指令时，能否理解意图、规划步骤、选择合适的工具、正确地调用并处理返回结果，以及在多个任务间切换和协调的能力，

MMTB强调任务的复合性和工具实用性，贴近现实世界中需要组合多种能力才能解决的问题场景。

Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions

https://arxiv.org/abs/2504.02623

MMTB

https://github.com/yupeijei1997/MMTB

2 BFCL-V3

BFCL-V3，Berkeley Function Calling Leaderboard

BFCL - Function Calling Leaderboard，专注于评估大模型进行函数调用的能力，整合了多个专注于函数调用的数据集和评估方法，并非端到端Agent任务执行Benchmark。

BFCL主要评估模型能否准确讲自然语言指令转化为函数调用，能否正确地提取和格式化参数，能否处理复杂的嵌套调用、并发调用、条件调用。

BFCL通过细粒度的评估，能很好地横向比较不同模型在这一核心技能上的优劣。

BFCL较少涉及任务规划、多步推理、结果校验、根据反馈调整策略。

(BFCL V3 • Multi-Turn & Multi-Step Function Calling Evaluation)

https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

🦍 Gorilla: Large Language Model Connected with Massive APIs

https://github.com/ShishirPatil/gorilla/tree/main

3 Tau-Bench

Tau-Bench关注Agent在动态环境中的反应与适应能力，评估Agent在不断变化的任务和场景中的实时决策和快速调整的应变能力Tau-Bench对时间敏感型任务，如实时游戏、自动驾驶更有价值。

tau-bench

https://github.com/sierra-research/tau-bench

τ2-Bench: Evaluating Conversational Agents in a Dual-Control Environment

https://arxiv.org/abs/2506.07982

4 AgentBench

AgentBench是一个综合的agent benchmark套件，从多个维度如操作系统操作、数据库操作、知识图谱查询、游戏、网页浏览等评估Agent 的能力，评估相对更全面。

AgentBench

https://github.com/THUDM/AgentBench

AgentBench: Evaluating LLMs as Agents

https://arxiv.org/abs/2308.03688

5 WebArena/WebVoyager

WebArena、WebVoyager专注于评估 Agent 在真实网页环境中完成复杂任务的能力，比如预订机票、在线购物、查找信息等。

该类benchmark测试Agent的视觉理解、HTML 解析、交互鲁棒性。更接近真实应用世界。

webarena

https://github.com/web-arena-x/webarena

WebArena: A Realistic Web Environment for Building Autonomous Agents

https://arxiv.org/abs/2307.13854

WebVoyager

https://github.com/MinorJerry/WebVoyager

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

https://arxiv.org/abs/2401.13919

6 SWE-Bench

SWE-bench专注于评估agent解决真实github仓库项目的软件问题，如修复 bug、添加功能。

SWE-Bench是代码生成领域评估Agent能力的重要标准。

swe-bench

https://www.swebench.com/

SWE-bench

https://github.com/swe-bench/SWE-bench

SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?

https://arxiv.org/pdf/2410.03859

7 Mind2Web

Mind2Web则针对跨网站复杂任务，评估Agent能否理解高层指令，并在多个不同网站之间导航，以交互的方式完成目标。

Mind2Web

https://github.com/OSU-NLP-Group/Mind2Web

Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

https://arxiv.org/abs/2506.21506

Mind2Web-2

https://osu-nlp-group.github.io/Mind2Web-2/

Mind2Web-2

https://github.com/OSU-NLP-Group/Mind2Web-2

总结

这些 benchmark对比不同方法、不同模型之间的相对优劣，也能测出Agent在特定技能上的表现，比如工具调用、信息检索、代码生成等。benchmark 环境通常是简化、净化过的，而真实世界充满了噪声、歧义、不确定性、动态变化，API 可能不稳定、文档可能过时、用户需求可能反复无常。benchmark也会不断进化，适应越来越复杂的真实世界场景。