当前位置：首页 > news >正文

BELLE-A论文翻译

news 2025/10/26 15:51:20

BELLE: A Bi-Level Multi-Agent Reasoning Framework for Multi-Hop Question Answering
BELLE：一种用于多跳问答的双层级多智能体推理框架

摘要

多跳问答（Multi-hop QA）涉及查找多个相关段落，并逐步进行推理以回答复杂问题。以往基于大语言模型（LLM）的多跳问答研究，往往忽略了问题类型之间的差异，采用统一的建模方法。本文首先对公开的多跳问答基准进行了深入分析，将问题划分为四种类型，并评估了五种前沿方法：Chain-of-Thought（CoT）、单步（Single-step）、迭代步（Iterative-step）、子步（Sub-step）和自适应步（Adaptive-step）。我们发现，不同类型的多跳问题对不同方法的敏感度不同。

为此，我们提出了一种双层级多智能体推理框架（BELLE），通过将每种方法视为一个“操作符”，并根据问题类型动态组合这些操作符来解决多跳问答任务。BELLE的第一层包含多个智能体，通过辩论制定一个可执行的操作符组合计划。在辩论过程中，除了基本的正方、反方和裁判角色外，我们在第二层引入了==“快思考”和“慢思考”智能体==，以监控观点变化是否合理。

大量实验表明，BELLE在多个数据集上显著优于强基线模型。此外，在更复杂的多跳问答任务中，BELLE的模型消耗具有更高的成本效益。

作者团队：

张涛林（Taolin Zhang）——合肥工业大学，计算机与信息工程学院
李冬阳（Dongyang Li）——上海电力大学
陈启洲（Qizhou Chen）——阿里云，华东师范大学
王成宇（Chengyu Wang）（通讯作者）——阿里云
何晓峰（Xiaofeng He）——华东师范大学

出版期刊与日期：

会议名称：The 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025)
第63届计算语言学协会年会（ACL 2025）
会议时间：2025年7月27日 – 8月1日
出版页码：第4184–4202页
出版社：Association for Computational Linguistics（ACL）

1 引言

近年来，大语言模型（LLMs）已成为现代自然语言处理（NLP）系统的基础架构（Blevins 等，2023；Zhang 等，2024b,a；Chu 等，2024a）。此外，思维链（Chain-of-Thought, CoT）提示技术进一步增强了 LLM 的推理能力（Wei 等，2022；Shaikh 等，2023；Chu 等，2024b）。然而，多跳问答（multi-hop QA）的复杂性常常超出 LLM 的知识边界，导致生成答案中出现事实性错误，即所谓的“幻觉”现象（Khalifa 等，2023；Huang 等，2024；Chu 等，2024a；Shi 等，2024）。

在文献中，基于 LLM 的多跳问答方法大致可分为两类：

（1）闭卷推理（Closed-book Reasoning）：该方法依赖 LLM 对多跳问题的理解能力，通过在生成过程中进行概率采样来得到答案。例如，CoT 方法通过逐步提示 LLM 来生成推理过程。考虑到复杂的多跳推理路径，一些研究（Dua 等，2022；Zhou 等，2023）将其分解为子问题并逐步求解，另一些研究（Yao 等，2023；Chu 等，2024a；Menon 等，2024）则将推理过程建模为在概率推理树上进行广度优先（BFS）或深度优先（DFS）搜索。然而，正如 Borgeaud 等（2022）所指出的，LLM 所学的知识往往不足以回答复杂问题，因此需要外部数据支持。

（2）检索增强推理（Retrieval-augmented Reasoning）：早期工作采用单步检索，但常常难以收集回答多跳问题所需的全部知识，导致知识遗漏（Lazaridou 等，2022；Borgeaud 等，2022；Izacard 等，2023）。一些方法通过迭代式检索，将前一轮的输出与子问题拼接，逐步获取更多信息（Press 等，2023；Shao 等，2023；Jiang 等，2024）。如图1所示，无论面对何种多跳问题，检索方法都直接召回外部知识并结合输入进行回答。尽管自适应方法（Jeong 等，2024）引入了分类器来判断问题复杂度，但仍采用固定流程处理所有问题类型，这不仅增加了计算负担，也限制了其在需要高推理速度的场景中的应用（Mavi 等，2024；Zhuang 等，2024）。

在这里插入图片描述
图 1：多跳问答方法对比。（1）闭卷推理不考虑引入外部知识；（2）检索增强推理采用端到端的固定方案处理所有多跳问题；（3）我们的智能体推理框架则针对问题类型动态生成执行计划，组合合适的多跳操作符。

Adaptive-step（自适应步骤法）: “先分类，再匹配方法”，即通过分类器判断问题类型，再自适应选择合适的推理策略（而非用固定方法解决所有问题）。而传统多跳 QA 方法（如 Single-step 单步检索、Iterative-step 迭代检索）存在 “一刀切” 问题：无论问题简单 / 复杂，都用同一套流程，导致简单问题浪费算力、复杂问题推理不足。Adaptive-step 的核心是 “按需分配策略”：先通过分类器识别问题类型，再为不同类型匹配最优推理方法，平衡性能与效率。

查看全文

http://www.dtcms.com/a/530014.html