当前位置：首页 > news >正文

介绍 τ-bench：一个评估语言智能体在真实场景中与人、工具、规则交互能力的新基准

news 2025/9/26 7:41:52

介绍 τ-bench：一个评估语言智能体在真实场景中与人、工具、规则交互能力的新基准

近年来，基于大语言模型（LLM）的智能体（agent）在自动化任务处理方面展现出巨大潜力。然而，现有的评测基准大多聚焦于单轮指令执行或纯工具调用，很少涉及多轮人机交互、复杂领域规则遵循以及长期一致性这些在实际应用中至关重要的能力。

为了填补这一空白，来自 Sierra 的研究团队提出了 τ-bench（Tool-Agent-User Interaction Benchmark），一个专注于评估语言智能体在动态对话环境中与用户交互、使用工具并遵循领域规则能力的全新基准。

τ-bench 的核心设计

τ-bench 模拟了一个真实的客服对话场景，包含三个关键组成部分：

数据库与 API 工具：每个领域（如零售、航空）都有结构化的数据库和对应的读写 API，智能体需要通过调用这些工具来完成任务。
领域策略文档：智能体必须遵守一份详细的领域规则文档（如“每个订单只能修改一次”、“经济舱行李额度根据会员等级变化”等）。
用户模拟器：使用 LLM（如 GPT-4）模拟真实用户的对话行为，用户会逐步提出需求，智能体需通过多轮对话收集信息、确认意图并执行操作。

每个任务被建模为一个部分可观测马尔可夫决策过程（POMDP），智能体需要在不确定的环境中逐步推理并行动。

评测方式与创新指标

τ-bench 采用了一种高效且忠实的评估方法：通过比对对话结束后的数据库状态与标注的“目标状态”来判断任务是否成功。这种基于状态的评估方式避免了主观判断，同时允许对话路径的多样性。

此外，论文提出了一个新的评估指标：pass^k（读作“pass hat k”），用于衡量智能体在 k 次独立重复执行同一任务时的一致性。与传统的 pass@k（至少一次成功）不同，pass^k 要求每次都必须成功，更能反映智能体在真实服务场景中的可靠性。

实验结果与发现

作者测试了包括 GPT-4o、Claude-3、Gemini、Llama-3 等在内的多个主流模型，并比较了函数调用（Function Calling）、ReAct 等不同智能体构建方法。主要发现如下：

即使最强模型也表现不佳：在 τ-retail 任务上，GPT-4o 的成功率仅为 61.2%，在更复杂的 τ-airline 任务上更是降至 35.2%。
一致性严重不足：GPT-4o 在 τ-retail 上的 pass^8 值低于 25%，说明同一任务重复执行时成功率急剧下降。
三大失败类型：
1. 参数错误或信息错误（55%）：智能体难以在复杂数据库中进行准确推理。
2. 决策错误（25%）：未能正确理解或遵循领域规则。
3. 复合请求处理不完整（19%）：在多个用户请求中遗漏部分任务。

为什么 τ-bench 重要？

更贴近现实的评估场景：首次将工具调用、用户交互与规则遵循三者结合，逼真模拟真实客服流程。
强调一致性与可靠性：引入 pass^k 指标，推动研究社区关注智能体的“稳定性”而非单次表现。
模块化与可扩展：代码开源，支持社区扩展新领域（如医疗、法律、税务等）。
揭示当前模型的短板：实验结果表明，即使是最先进的模型，在复杂交互与规则理解方面仍有很大提升空间。

未来方向

τ-bench 为智能体研究提供了新的挑战和方向，包括：

提升智能体对复杂数据库的推理能力；
增强对领域规则的理解与遵循；
改进长上下文记忆与多轮意图跟踪；
开发更鲁棒、一致的交互策略。

τ-bench 不仅是一个评测工具，更是一个推动语言智能体向“实用化”、“可靠化”迈进的重要里程碑。如果你对构建或评估下一代语言智能体感兴趣，不妨关注这个项目，甚至参与其中！

🔗 项目地址：https://github.com/sierra-research/tau-bench
📄 论文链接：https://arxiv.org/abs/2406.12045

http://www.dtcms.com/a/406029.html

相关文章：

网站模版建设教程效果好网站建设哪家好

20-for循环案例练习

华策影视 AIGC 实战：剧本分镜 1 小时生成，影视创作告别熬夜改稿时代

移动固态硬盘无法被电脑识别怎么办？

突破地域限制：WaveTerminal与cpolar的远程开发协作方案

vue2和vue3的watch用法

【Python】文件处理（二）

幸运飞艇网站建设设计网站流程

基于vue的考研信息系统6kv17（程序 + 源码 + 数据库 + 调试部署 + 开发环境配置），配套论文文档字数达万字以上，文末可获取，系统界面展示置于文末

针对单元测试、集成测试、系统测试和验收测试（用户测试）各自的目标和测试内容不同，设计对应的各类测试用例

（JDK，Eclipse，Tomcat版本）Java的web配置Part1 （#by 拌面

中企动力算大厂吗周口网站关键词优化

用 Flink DataStream API 搭建流式 ETL从无状态到有状态、从单流到连接流

上海保洁服务网站建设小网站如何做密码找回

FreeRTOS内存管理

基于 STM32 的智能洗衣机控制系统设计与实现

【开题答辩全过程】以 IT项目需求发布与管理平台为例，包含答辩的问题和答案

省级旅投集团数据中台架构实战：多租户隔离与主题域建模实践

分布式阳台光伏系统组成及防逆流电表功能详解

PostgreSQL 和 MySQL两个数据库的索引的区别

论文流程1

苏州正规制作网站公司去了外包简历就毁了吗

上海网站建设公司哪家好?大淘客怎么自己做网站

解决Markdown笔记图片失效问题：Gitee+PicGo图床搭建全攻略

AWS中国云中的ETL之从aurora搬数据到s3（Glue版）

忘记云服务器密码怎么办？阿里云/腾讯云/AWS密码重置官方指南

DevOps实战(9) - 使用Arbess+GitPuk+sourcefare+PostIn搭建Java自动化部署

嘉兴优化网站价格怎么做网站xml地图

C语言指针深度解析：从硬件架构到现代安全编程

Vue 自定义指令详解