当前位置: 首页 > news >正文

【文献阅读】DeepRAG:大语言模型的检索增强推理新范式

DeepRAG:《Thinking to Retrieval Step by Step for Large Language Models》。这是一篇关于如何让大语言模型(LLMs)更聪明地进行检索增强推理(Retrieval-Augmented Generation, RAG)的研究。

标题期刊年份关键词
DeepRAG: Thinking to Retrieval Step by Step for Large Language ModelsarXiv (预印本)2025Retrieval-Augmented Generation, Large Language Models, Markov Decision Process, Adaptive Retrieval

🧠 研究背景

大语言模型(LLMs)在推理任务中表现出了惊人的潜力,但它们也有一个致命弱点——容易出现事实性幻觉(factual hallucinations)。这是由于模型的知识在时效性、准确性和覆盖范围上的局限性导致的。为了解决这个问题,检索增强生成(RAG)应运而生,通过检索外部知识库或搜索引擎的信息来提升模型回答的准确性。然而,现有的RAG方法存在一个很大的问题任务分解不够有效,检索过程冗余,不仅引入了噪声,还降低了回答质量。🤔


🛠️ 相关工作

在检索增强生成领域,已经有了一些尝试。比如,基于分类器的方法(classifier-based methods)需要额外训练一个线性头来决定是否检索;基于置信度的方法(confidence-based methods)依赖于阈值驱动的不确定性指标,但这些方法在不同任务上的表现很不稳定。而DeepRAG则提出了一种全新的方法,利用LLMs的生成能力,通过模仿学习和链式校准来动态决定是否需要检索,既不需要额外参数,也不依赖不稳定的不确定性指标。🚀


🌟 创新点

DeepRAG的核心创新在于它将检索增强推理建模为马尔可夫决策过程(Markov Decision Process, MDP),并引入了两个关键组件:检索叙事(Retrieval Narrative)原子决策(Atomic Decisions)

  • 检索叙事:确保检索过程是结构化的、适应性的,根据已检索到的信息动态生成子查询。

  • 原子决策:动态决定每个子查询是否需要检索外部知识,还是直接依赖模型自身的参数化知识。

🖥️ 模型图输入输出转变

输入:问题(如“《指环王》三部曲的总时长是多少?”)
输出:经过多步推理和动态检索后,生成最终答案(如“558分钟”)。

在这个过程中,模型会动态生成子查询(如“《指环王:护戒使者》的时长是多少?”),并根据需要决定是否检索外部知识。最终,这些子查询的答案会被整合成最终答案。🧩

这种方法不仅提高了检索效率,还显著提升了回答的准确性,可以说是“推理界的瑞士军刀”!🎉


🧩 方法介绍

DeepRAG的框架可以分为三个关键步骤:

  1. 二叉树搜索(Binary Tree Search)
    模型通过二叉树搜索为每个子查询探索两种策略:直接使用参数化知识或检索外部知识库。这不仅分解了问题,还考察了不同检索选择对最终答案的影响。🔍

  2. 模仿学习(Imitation Learning)
    通过合成数据,让模型学习最优的推理路径,即在最小化检索成本的同时生成正确答案。这一步骤让模型学会了如何高效地分解问题并生成中间答案。🎓

  3. 链式校准(Chain of Calibration)
    这一步进一步优化模型对自身知识边界的认知。通过合成偏好数据,模型可以更准确地判断何时需要检索,何时依赖内部知识。🔍


📊 实验

DeepRAG在五个开放域问答数据集上进行了实验,包括HotpotQA、2WikiMultihopQA、CAG、PopQA和WebQuestions。实验结果显示,DeepRAG在所有数据集上都显著优于现有方法,平均回答准确率提升了21.99%,检索效率也得到了显著提升。📈


🎯 重点:DeepRAG的创新之处

  • 动态决策:DeepRAG能够根据问题的复杂性和已有的知识动态决定是否需要检索,避免了不必要的检索操作。

  • 知识边界校准:通过链式校准,模型更好地理解了自身知识的边界,从而在检索和推理之间做出更明智的选择。

  • 结构化推理检索叙事确保了推理过程的结构化,让模型能够像人类一样逐步解决问题

相关文章:

  • 【Springboot知识】开发属于自己的中间件健康监测HealthIndicate
  • Obsidian中Text Generate接入智谱清言报错:JSON parse error
  • 计算机视觉|一文读懂NeRF:为3D场景重建带来新突破
  • 系统架构设计师—论文解析—论文写作技巧
  • PowerBI实用技巧——案例十三 (根据所选日期,动态计算每年新客户数量)
  • uniapp-x 之useAttrs只读
  • Excel单元格中插入自定义超链接
  • ffmpeg面试题整理
  • 本地部署LLaMA-Factory
  • 【JavaEE】网络原理之初识
  • 20250315-OpenAI-AgentSDK实验
  • 【VUE】day03-vue过滤器、计算属性、vue-cli、vue组件
  • (已解决)aws 上 部署Splunk 负载均衡unhealthy
  • 使用MySQL的Binlog来同步数据到ES当中
  • Umi-OCR 全家桶
  • vue3:八、登录界面实现-页面初始搭建、基础实现
  • 在小程序中/uni-app中,当没有登录时,点击结算按钮,3s后自动跳转到登录页面
  • 历年云南大学计算机复试上机真题
  • 【安装】kafka单机版升级为3.8.1
  • 各类神经网络学习:(二)RNN 循环神经网络(上集),模型类型和相关知识
  • 与总书记交流的上海人工智能实验室年轻人,在探索什么前沿领域?
  • 紫光集团原董事长赵伟国一审被判死缓
  • 在对国宝的探索中,让美育浸润小学校园与家庭
  • 从“求生”到“生活”:医保纳入创新药让梗阻性肥厚型心肌病患者重拾生活掌控权
  • 《广州大典研究》集刊发展座谈会:“广州学”的传承与创新
  • 湖南湘西州副州长刘冬生主动交代问题,接受审查调查