当前位置: 首页 > news >正文

BELLE-A论文翻译

BELLE: A Bi-Level Multi-Agent Reasoning Framework for Multi-Hop Question Answering
BELLE:一种用于多跳问答的双层级多智能体推理框架

摘要

多跳问答(Multi-hop QA)涉及查找多个相关段落,并逐步进行推理以回答复杂问题。以往基于大语言模型(LLM)的多跳问答研究,往往忽略了问题类型之间的差异,采用统一的建模方法。本文首先对公开的多跳问答基准进行了深入分析,将问题划分为四种类型,并评估了五种前沿方法:Chain-of-Thought(CoT)、单步(Single-step)、迭代步(Iterative-step)、子步(Sub-step)和自适应步(Adaptive-step)。我们发现,不同类型的多跳问题对不同方法的敏感度不同。

为此,我们提出了一种双层级多智能体推理框架(BELLE),通过将每种方法视为一个“操作符”,并根据问题类型动态组合这些操作符来解决多跳问答任务。BELLE的第一层包含多个智能体,通过辩论制定一个可执行的操作符组合计划。在辩论过程中,除了基本的正方、反方和裁判角色外,我们在第二层引入了==“快思考”和“慢思考”智能体==,以监控观点变化是否合理。

大量实验表明,BELLE在多个数据集上显著优于强基线模型。此外,在更复杂的多跳问答任务中,BELLE的模型消耗具有更高的成本效益

作者团队:

  • 张涛林(Taolin Zhang)——合肥工业大学,计算机与信息工程学院
  • 李冬阳(Dongyang Li)——上海电力大学
  • 陈启洲(Qizhou Chen)——阿里云,华东师范大学
  • 王成宇(Chengyu Wang)(通讯作者)——阿里云
  • 何晓峰(Xiaofeng He)——华东师范大学

出版期刊与日期:

  • 会议名称The 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025)
    第63届计算语言学协会年会(ACL 2025)

  • 会议时间:2025年7月27日 – 8月1日

  • 出版页码:第4184–4202页

  • 出版社:Association for Computational Linguistics(ACL)

1 引言

近年来,大语言模型(LLMs)已成为现代自然语言处理(NLP)系统的基础架构(Blevins 等,2023;Zhang 等,2024b,a;Chu 等,2024a)。此外,思维链(Chain-of-Thought, CoT)提示技术进一步增强了 LLM 的推理能力(Wei 等,2022;Shaikh 等,2023;Chu 等,2024b)。然而,多跳问答(multi-hop QA)的复杂性常常超出 LLM 的知识边界,导致生成答案中出现事实性错误,即所谓的“幻觉”现象(Khalifa 等,2023;Huang 等,2024;Chu 等,2024a;Shi 等,2024)。

在文献中,基于 LLM 的多跳问答方法大致可分为两类:

(1)闭卷推理(Closed-book Reasoning):该方法依赖 LLM 对多跳问题的理解能力,通过在生成过程中进行概率采样来得到答案。例如,CoT 方法通过逐步提示 LLM 来生成推理过程。考虑到复杂的多跳推理路径,一些研究(Dua 等,2022;Zhou 等,2023)将其分解为子问题并逐步求解,另一些研究(Yao 等,2023;Chu 等,2024a;Menon 等,2024)则将推理过程建模为在概率推理树上进行广度优先(BFS)或深度优先(DFS)搜索。然而,正如 Borgeaud 等(2022)所指出的,LLM 所学的知识往往不足以回答复杂问题,因此需要外部数据支持

(2)检索增强推理(Retrieval-augmented Reasoning):早期工作采用单步检索,但常常难以收集回答多跳问题所需的全部知识,导致知识遗漏(Lazaridou 等,2022;Borgeaud 等,2022;Izacard 等,2023)。一些方法通过迭代式检索将前一轮的输出与子问题拼接,逐步获取更多信息(Press 等,2023;Shao 等,2023;Jiang 等,2024)。如图1所示,无论面对何种多跳问题,检索方法都直接召回外部知识并结合输入进行回答。尽管自适应方法(Jeong 等,2024)引入了分类器来判断问题复杂度,但仍采用固定流程处理所有问题类型,这不仅增加了计算负担,也限制了其在需要高推理速度的场景中的应用(Mavi 等,2024;Zhuang 等,2024)。

在这里插入图片描述
图 1:多跳问答方法对比。(1)闭卷推理不考虑引入外部知识;(2)检索增强推理采用端到端的固定方案处理所有多跳问题;(3)我们的智能体推理框架则针对问题类型动态生成执行计划,组合合适的多跳操作符

Adaptive-step(自适应步骤法): “先分类,再匹配方法”,即通过分类器判断问题类型,再自适应选择合适的推理策略(而非用固定方法解决所有问题)。而传统多跳 QA 方法(如 Single-step 单步检索、Iterative-step 迭代检索)存在 “一刀切” 问题:无论问题简单 / 复杂,都用同一套流程,导致简单问题浪费算力、复杂问题推理不足。Adaptive-step 的核心是 “按需分配策略”:先通过分类器识别问题类型,再为不同类型匹配最优推理方法,平衡性能与效率。

http://www.dtcms.com/a/530014.html

相关文章:

  • (三)Gradle 依赖版本控制
  • 汕头网站建设工作做一个电子商务网站建设策划书
  • 【Java 反射机制】
  • 2016年网站设计风格山西seo网站设计
  • 局域网建设网站视频教程网站制作都包括什么
  • 网站建设工作推进会上的讲话在电商网站上做推广的技巧
  • 公司做网络推广哪个网站好网络推广专员好做吗
  • 最优传输理论学习(1)+PINN文献阅读
  • 网站关键词几个好wordpress 徽标
  • 培训网站项目ppt怎么做东莞网站优化案例
  • 如何建团购网站网站建设推广襄樊
  • C++数据结构【顺序表和Vector】
  • mujoco 仿真导纳控制律
  • 做引流去那些网站好网站挖掘工具
  • 西安免费自助建站模板淄博seo排名
  • 在线商城的程序源代码
  • 网站图片大小大连事件最新消息
  • 网站 设计 语言注册资金1000万实际需要多少钱
  • 做网站的市场网站建设预算明细
  • 学生管理系统升级
  • 网站解析密码宁波led网站建设
  • 襄阳住房和城乡建设局网站秦皇岛市房价
  • 建站如何收费wordpress博客价格
  • 电商网站开发技术上海网站建设高端定制
  • 大规模TSP问题规划方案中的避坑事项
  • 什么是代理隧道?代理隧道用来做什么?
  • FMC-DETR:面向航拍视角目标检测的频域解耦多域协同方法
  • 秦皇岛公司做网站工装公司是做什么的
  • 周浦网站建设公司网站开发支付功能怎么做
  • 猎头做单都有什么网站易点科技网站建设