当前位置: 首页 > news >正文

Removal of Hallucination on Hallucination: Debate-Augmented RAG(ACL 2025)

研究方向:Image Captioning

1.论文介绍

本文提出了辩论增强的RAG(DRAG),一个无需训练的框架,它将多智能体辩论(MAD)机制整合到RAG的检索和生成阶段。

在检索中,DRAG采用支持检索策略的支持者、质疑查询充分性的反对者和评估完整性的裁判之间的结构化辩论来提高检索质量并确保事实可靠性。

在生成中,DRAG引入了非对称信息角色和对抗性辩论,增强了推理的鲁棒性并减轻了事实不一致性,提高了检索可靠性,减少了RAG引起的幻觉。

注:MAD引入多个独立的大型语言模型智能体参与结构化辩论,通过批判性评估和多智能体验证迭代精炼他们的回应,提高事实一致性并在推理中增强了鲁棒性。此外,通过为智能体分配不同的角色,MAD促进了观点多样性,从而减轻了单一智能体方法中出现的偏见。

上图为检索增强生成中的幻觉演示:

  1. 在第一个例子中,错误源于检索了一部同名电影的信息,而不是正确的实体(乐队)。
  2. 在第二个例子中,尽管检索到了准确的信息,但检索噪声仍然会导致错误的响应。

2.方法介绍

给定一个问题x,检索器R(E5-base-v2)从知识语料库C(Wikipedia dump (Dec 2018))中检索出 top-k (3)个支持段落 C_x^k: 

检索结束后,检索到的段落 C_x^k 和问题 x 用于提示大型语言模型(Llama-3.1-8B-Instruct) M,然后生成答案 y: 

2.1 检索辩论

\hat Q = [{q_i}]_{i=1}^n​代表针对问题x的n个查询构成的最优查询池,而C_{\hat Q} = [C_{q_i}^k]_{i=1}^n​表示对于 \hat Q 里的每一个 query,用检索器 R 去知识库里取 top-k 文档,把这些文档合并得到的证据集合。 

在m个不同代理A = [a_i]_{i=1}^m​之间就优化检索池Q的多轮辩论,第j轮辩论:

支持者代理:保持 Q^j 不变,需要提供理由来支持当前查询 Q^j 是合理的,并且检索到的结果 C_{Q^j}​是充分的。

挑战者代理:对 Q^j 进行批评,提出对不合理查询的修改或发起新的检索查询,以满足进一步的知识需求。因此挑战者代理坚持对查询池 Q^j 进行精细化操作:

 Q_{useful} = [q_i \in Q^j]表示挑战者代理认为必须保留的 Q^j 中的查询子集。Q_{new} 是挑战者代理引入的额外查询,用以补充信息或提升检索质量。

裁判代理:

更新查询池:初始查询集 Q_0={x} 开始,每轮辩论后,根据裁判代理的决定,查询池 Q^j 会进行迭代细化,并得到 Q^{j+1} = T^j(Q^j)

辩论过程迭代进行,直到满足收敛标准:

  • 当 时,查询集收敛,其中 ϵ(0)是预定义的阈值,确保最小的查询修改。

  • 达到最大辩论轮数 r(3,过多会导致问题漂移)。

一旦辩论结束,最终查询集 \hat Q 将用于检索,形成下一阶段响应辩论的证据集C_{\hat Q}。 

2.2 响应辩论

用代理之间的直接交互对话、并通过信息不对称的角色分配来对证据集合C_{\hat Q}进行逐步验证与稳健化,从而减少幻觉中的幻觉。

支持者代理:

第一轮:基于检索到的证据集合 C_{\hat Q} 给出初始答案:

第 i 轮(i > 1):在自己历史回答和挑战者代理上一轮回答的基础上改进自己的答案:

注:支持者代理始终依赖检索证据集合 + 对手的质疑来修正答案。

挑战者代理:

 第一轮:完全基于内部知识(不看检索证据)给出初始答案:

第 i 轮(i > 1):结合自己的历史回答与支持者代理上一轮答案来修正:

注:挑战者代理扮演一个独立思考者,不会被检索证据集合直接绑架,能指出检索证据中的错误或缺陷。

裁判代理:

在达到最大辩论轮数 r (3,过多会导致问题漂移)后,裁判代理会比较两个最终候选答案得出最终输出:

3. 局限性

  • 在检索和响应阶段引入的多代理辩论增加了计算开销。尽管检索阶段使用了一个裁判代理动态地在收集到足够证据时提前终止,但响应阶段目前使用固定数量的辩论轮次,这可能导致不必要的LLM调用,尤其是在简单的单跳任务中。
  • 问题漂移,过度推理增加了不必要的复杂性,并在直接场景中降低了有效性。尽管DRAG很好地适应了检索深度,但其响应阶段缺乏这种灵活性。
http://www.dtcms.com/a/419621.html

相关文章:

  • Java EE初阶启程记04---线程的状态
  • java设计模式:工厂方法
  • 保健品手机网站模板搭建英文网站
  • Linux操作系统进入紧急模式(welcome to emergency mode!)
  • k8s的组件概念
  • 为什么要有线程及其生命周期
  • 京东商品评论接口(jingdong.ware.comment.get)技术解析:数据拉取与情感分析优化
  • 县级门户网站建设运营成本广州昨天发生重大新闻
  • Java 调用高德地图Sig签名遇10007 INVALID_USER_SIGNATURE的解决之道
  • 代码式绘图工具--Mermaid
  • 网站营销方式有哪些内容wordpress客户端APP
  • 如何制作网站设计网站认证必须做么
  • 桐庐住房和城乡建设局网站wordpress+中文安装
  • linux网站备份杭州网络排名优化
  • 微网站怎么自己做线上外贸平台有哪些
  • 比价网站源码wordpress转域名收费
  • org域名做网站网站空间租用
  • 超越单向观看:视频直播点播视频会议平台EasyDSS如何赋能远程实时音视频互动场景?
  • 从打孔卡到SSD:数据存储300年的进化之路
  • 【音视频】pjsua2库:Endpoint、Call类接口详解
  • 网站策划书范文模板建设一个看电影的网站
  • 网站自适应框架文档下载免费网站
  • 内蒙古建设工程造价信息网官方网站wordpress网站乱码
  • AI + 咨询 | 2025年咨询行业 AI 实战报告
  • COMSOL介电弹性体数值仿真指南:预拉伸圆形DEA的稳态变形分析(II)
  • SpringBoot连接PgSQL
  • 计算机组成原理:外围设备概述
  • 从《智能世界2035》看软件研发组织变革与未来形态
  • 人事处网站开发文献综述深圳公司有哪些
  • NET网站开发程序员招聘抚顺做网站的公司