当前位置: 首页 > news >正文

【2025RAG最新进展】

2025年以来检索增强生成(RAG)的最新进展与前沿技术报告

I. 2025年检索增强生成(RAG)导论

A. RAG的演进:超越基础检索

检索增强生成(Retrieval Augmented Generation, RAG)已从一个相对简单的“检索-生成”范式,演变为一个包含众多专业技术的复杂生态系统。2025年的发展趋势表明,RAG的重点在于通过更高级的智能、适应性和上下文感知能力,来增强其流水线中的每一个组成部分——即检索、增强和生成环节 1。大型语言模型(Large Language Models, LLMs)在RAG中的集成,已不再仅仅局限于作为最终的文本生成器。LLMs正越来越多地被用作RAG流程中的主动参与组件,例如参与查询重写、为索引目的进行文档摘要,甚至评估检索结果的质量 7。

2025年RAG的一个显著特征是其日益增强的“元学习”能力,即RAG系统展现出更强的自我意识和自我优化特性。这一演进路径可以概括为:最初的RAG系统采用固定的流水线作业;随后,在实际应用中暴露出如检索质量不高或上下文误解等挑战;作为应对,研究者开始将更复杂的“推理”能力嵌入到RAG的各个阶段。这催生了能够评估自身中间步骤(例如,检索质量)并相应调整策略的系统,如Self-RAG或Adaptive RAG等技术。这种“元”层面体现在系统不仅执行RAG任务,更在学习如何更优地执行RAG。例如,通过强化学习优化检索策略 8 和设计动态奖励函数 10 便是这种趋势的体现。这种发展预示着未来的RAG系统可能因其更强的自我适应能力,而减少对特定数据集或任务的手动调优需求。

B. 现代RAG致力于解决的持续挑战

尽管RAG技术取得了显著进展,但一些核心挑战依然是2025年研究的焦点:

  1. 幻觉减少 (Hallucination Reduction):作为RAG技术出现的主要驱动力之一,减少LLM的幻觉输出仍然是核心目标。现代RAG不仅致力于检索信息,更强调确保LLM能够忠实地利用检索到的上下文进行生成 15。诸如CiteFix 23 和DRAG 18 等技术明确地针对这一问题进行优化。
  2. 知识陈旧性与领域特异性 (Knowledge Staleness/Domain Specificity):RAG提供了一种无需完全重训练LLM即可向模型注入最新知识或领域特定知识的有效机制 15。
  3. 上下文管理不当 ("Lost in the Middle"):为了使LLM能够高效地利用检索到的信息,先进的分块(chunking)、重排序(re-ranking)和上下文压缩(context compression)技术应运而生,旨在为LLM提供最相关且简洁的信息片段 15。
  4. 检索质量与效率 (Retrieval Quality & Efficiency):确保检索到的文档高度相关,并且整个检索过程在计算上是可行的,尤其是在处理海量数据集时,这仍然是一个关键挑战 15。

对“鲁棒性”的关注是2025年RAG领域的一个重要趋势。研究已从单纯追求准确率转向确保RAG系统在各种复杂条件下(如噪声数据、对抗性攻击或信息冲突)的可靠性。早期的RAG主要关注在干净数据集上提升准确性。然而,实际部署暴露了其脆弱性,例如易受检索文档中错误信息的影响,或无法处理模糊性。这促使研究人员开发针对鲁棒性的特定RAG架构,例如用于处理冲突信息的Madam-RAG 32 和用于应对知识库投毒的EcoSafeRAG 34。正如一篇综述 3 所指出的,“面向鲁棒性的设计”已成为RAG架构的一个重要分类。这意味着RAG系统正被设计用于应对现实世界的复杂和“混乱”情况,这对于企业采纳和高风险应用至关重要。这也反过来推动了专门测试这些鲁棒性方面的评估基准(如RAMDocs数据集 33)的发展。

II. 2025年RAG核心流水线增强技术

A. 先进的分块与嵌入策略

1. 超越固定尺寸:语义、文档感知与智能体分块

传统的固定大小分块方法常常破坏文本的语义连续性。2025年,分块技术明显向更智能化的方向发展。

  • 语义分块 (Semantic Chunking):基于嵌入向量的语义相似性对句子进行分组,从而创建上下文感知的分块 36。
  • 文档感知/结构化分块 (Document-Based/Structural Chunking):利用文档固有的结构信息(如Markdown标题、章节、代码结构等)来确定分块边界,以保留逻辑单元的完整性 25。例如,Lozano等人在2024年提出了一种基于结构元素的医学文档分块方法 25。
  • 智能体分块 (Agentic Chunking):这是一种实验性的方法,让LLM自身根据语义含义和内容结构(如段落类型、章节标题)来决定最佳的文档切分方式,模拟人类的推理过程 36。
  • 混合分块器 (Hybrid Chunkers):结合了文档层次结构与基于token的细化调整,允许用户指定期望的分块大小,同时尊重文档结构,能够在章节内部切分过大的分块并合并过小的分块 38。
  • 上游评估需求:正如arXiv:2504.14891的综述所强调 1,对分块方法的评估至关重要。评估应包含固有指标(如关键词覆盖率、回答所需token数)和外在指标(对下游检索和生成性能的影响)。

分块技术正从一个静态的预处理步骤演变为一个动态的、内容感知的,甚至可能是由LLM驱动的过程。其目标是创建大小优化且上下文完整的“检索单元”,以供下游LLM高效利用。最初,固定大小的分块因其简单性而被广泛采用,但很快就暴露出其在处理复杂文档时破坏语义连贯性的问题。语义分块试图通过聚合语义相关的文本片段来解决这个问题。随后,结构化分块利用文档的固有组织(如章节、段落)来指导切分。更高级的智能体分块或混合分块则利用LLM或复杂规则来动态确定最佳分块策略,平衡语义一致性与分块大小的约束。这意味着“分块”本身正在成为一个更智能定义的单元,而非任意的文本段。这种演进趋势表明,RAG系统的质量越来越依赖于复杂的预处理步骤,这可能增加索引阶段的复杂性和计算成本。

2. 面向科学文献的多抽象层RAG (MAL-RAG)

MAL-RAG旨在满足不同信息粒度的需求,通过在文档、章节、段落和多句子等多个抽象级别上创建分块 25。对于文档和章节等较高级别的抽象,直接使用原始内容可能会导致文本过长,稀释LLM的注意力。MAL-RAG采用__map-reduce方法__,利用LLM(如Vicuna-13B-v1.3)生成这些高级别分块的摘要信息,以确保简洁性并保留关键信息。而段落和多句子等级别的分块则保留原始内容以提供细节 25。这种方法通过提供概括性的高层上下文和详细的低层分块,有效缓解了“大海捞针”或“迷失在中间 (lost in the middle)”的问题 25。在糖科学(Glycoscience)等领域的实验表明,MAL-RAG在AI评估的问答正确性方面,相比单层RAG取得了显著提升(例如,在糖相关论文上提升了25.7%) 25。

3. 嵌入存储优化与复杂数据表示

最先进的嵌入模型生成的嵌入向量维度越来越高(例如1536至4096维),这带来了巨大的内存消耗问题 40。存储数百万个此类float32精度向量可能需要数百GB的RAM。为了优化存储,量化(减少每个向量分量的比特数)和__降维__(减少每个向量的分量数)等技术被广泛研究和应用 40。在使用二值化嵌入进行初步检索后,通过高精度向量进行重排序对于维持系统性能至关重要 40。名为“知识型检索增强生成综述”(A Survey on Knowledge-Oriented Retrieval-Augmented Generation, arXiv:2503.10677) 的研究 5 深入探讨了面向知识密集型数据的嵌入策略,强调了捕捉复杂语义关系的需求。

嵌入模型的日益复杂化(例如,针对特定领域的模型、支持更大上下文窗口的模型、多语言模型 43)与存储和计算成本之间存在一种推拉效应。一方面,更优的嵌入能够捕捉更细微的语义差别,从而提升检索质量。另一方面,这些高质量的嵌入往往维度更高,导致存储和查询成本的增加。因此,在不牺牲检索质量的前提下,研究高效的表示方法,如量化和降维,变得至关重要。这预示着一个专注于嵌入生命周期管理和RAG优化,可称为“嵌入操作 (Embedding Operations, EmbOps)”的新子领域可能正在形成。

B. 检索机制的革新

1. 混合检索:集成关键词、语义与图检索

单一检索方法往往难以应对所有类型的查询。因此,混合检索成为趋势。它结合了__关键词检索__(如BM25、TF-IDF,用于稀疏检索)和__向量检索__(用于稠密语义相似度检索)43。通常使用加权公式 H=(1−α)K+αV 来平衡两者的贡献 46。__图检索__也越来越多地被整合到混合方法中,利用知识图谱发现纯文本方法可能忽略的连接 47。例如,KG2RAG 48 利用知识图谱提供分块间的事实级关系,以提高检索结果的多样性和连贯性。TigerVector 47 则支持在图数据库内进行向量搜索,赋能高级RAG应用。Pinecone等向量数据库也提供了混合检索功能,允许使用独立的稠密和稀疏索引,或单一混合索引,并支持显式加权方案 45。

混合检索正逐渐成为鲁棒检索的标配。这是因为用户的查询意图千差万别,既可能包含明确的关键词,也可能表达宽泛的概念。同时,不同类型的数据(文本、图)也各自拥有其独特的检索优势。关键词检索擅长匹配特定术语或缩写;语义检索则能更好地处理概念相似性或释义转述;图检索则长于发现实体间的关联和多跳连接。由于用户通常无法预知哪种检索类型最适合其查询,因此结合这些方法并通过智能加权来融合结果,能够最大化检索到相关信息的概率。这种趋势也意味着检索系统本身正变得更加复杂,需要编排层来管理和融合来自多种底层检索范式的结果。

2. 精密的重排序与上下文选择

初始检索阶段往往会返回一个较大范围的候选文档集,而重排序阶段则利用计算成本更高但更精确的模型来优化这个候选集 43。

  • 交叉编码器 (Cross-encoders):通过同时处理查询和文档来提供更准确的相关性评分 43。
  • LLM作为重排序器:经过微调的LLM,如RankRAG中使用的Llama-3.1-8B-Instruct,可以同时承担生成器和重排序器的角色 50。
  • 专用Ranking API:例如Google的Ranking API,能够提供文档与查询匹配程度的精确评分,超越了单纯的语义相似度计算 51。其semantic-ranker-default-004模型(2025年4月发布)支持每个记录高达1024个token。
  • METEORA (arXiv:2505.16014) 52:该框架用基于理由驱动的选择方法替代了传统的重排序。它使用经过偏好调整的LLM生成“理由”,然后通过一个证据块选择引擎(Evidence Chunk Selection Engine, ECSE)进行自适应选择(包括配对、池化和扩展),最后由一个验证LLM(Verifier LLM)进行一致性检查。据称,METEORA能在使用约少50%证据块的情况下,将生成准确率提高33.34%。
  • HyperRAG (arXiv:2504.02921) 54:通过重用键值缓存(KV-cache)来实现高效的解码器基础上的重排序器推理,从而优化质量与效率的平衡,实现了2-3倍的吞吐量提升。
  • 上下文压缩与过滤:后检索阶段的上下文管理技术,如抽象式摘要(RECOMP-Abst)和抽取式方法(LLMLingua),用于压缩信息 43。MacRAG 13 则采用分层压缩和文档分区的方法,以实现自适应的上下文合并。

重排序和上下文选择正成为关键的“精炼”阶段。这反映了一个共识:初始检索的结果往往是嘈杂或过于宽泛的。当前的趋势是发展更智能、可解释(如METEORA)且高效(如HyperRAG)的选择机制。其基本逻辑是:初始检索(例如向量搜索)速度快,但可能不够精确或返回过多结果;而LLM的上下文窗口有限,且容易被不相关信息干扰。因此,需要第二阶段来对初始候选集进行重排序、过滤或压缩。这个阶段可以使用更强大(但通常更慢)的模型或更复杂的逻辑,因为它处理的是一个规模较小的候选集。RAG流水线因此日益多阶段化,每个阶段都需要在速度和准确性之间进行权衡。优化这种级联流程是当前的一个重要研究方向。

3. 高效RAG推理:TELERAG与前瞻性检索
  • TELERAG (arXiv:2502.20969) 30:该系统旨在解决具有大型数据存储和有限GPU内存的RAG系统中的延迟问题。
  • 它引入了__前瞻性检索 (lookahead retrieval)__,这是一种预取机制,基于初始查询和(预检索LLM生成阶段后)精炼查询之间的语义重叠来预测所需数据(IVF集群)。
  • 数据在预检索LLM生成阶段期间从CPU传输到GPU,从而隐藏了传输延迟。
  • TELERAG利用IVF(Inverted File Index,倒排文件索引)搜索算法和查询相似性,具体流程包括:
    1. 在预检索生成期间,预取与初始查询(qin)对应的预测IVF集群到GPU。
    2. 在检索阶段,对已预取到GPU的集群,针对精炼查询(qout)执行快速GPU相似性搜索。
    3. 同时,在CPU上处理未被预取的“遗漏”集群,最终排序在GPU上完成。
  • 据称,TELERAG可将端到端RAG推理延迟平均降低高达1.72倍。
4. 联邦RAG:面向分布式知识
  • 联邦RAG (Federated RAG, arXiv:2505.18906) 49:将联邦学习(FL)与RAG相结合,使LLM能够在保护隐私的前提下访问分布式知识源。
  • 该技术旨在解决跨数据孤岛的数据本地化、个性化检索和上下文感知生成等挑战。
  • 当前的研究轨迹包括:隐私与安全(例如,使用可信执行环境如C-FedRAG,或同态加密如FRAG),检索效率(例如,查询路由如RAGRoute),以及模型集成(例如,协作式检索器训练如FedE4RAG)。
  • 面临的开放性挑战包括可扩展的索引同步机制、应对概念漂移的元学习检索器自适应,以及动态基准测试等。

__III. LightRAG聚焦:图增强索引与双层检索 __1

LightRAG 61 (arXiv:2410.05779) 强调利用图结构来表示实体间的复杂相互依赖关系,从而超越传统RAG系统中扁平化的数据表示方式 1。

A. 基于图的文本索引:实体提取、LLM分析与去重

LightRAG的图构建过程包含以下关键步骤:

  1. 实体与关系提取 (R(⋅)):利用LLM从文本块中识别实体(节点)和它们之间的关系(边)。例如,从“心脏病专家诊断心脏病”中提取“心脏病专家”和“心脏病”作为实体,“诊断”作为关系 1。
  2. LLM分析生成键值对 (P(⋅)):针对每个实体节点和关系边,LLM会生成一个文本键值对(K, V)。其中,键(K)是一个用于高效检索的词或短语,值(V)是一段总结了相关外部数据片段的文本,用于辅助文本生成。实体通常以其名称作为唯一的索引键,而关系则可能拥有多个通过LLM增强(例如,包含相关实体全局主题)得到的索引键 1。
  3. 去重 (D(⋅)):合并来自不同文本片段的相同实体和关系,以优化图的规模,提升数据处理效率 1。

这种基于图的索引方法能够捕捉复杂的相互依赖关系,促进更细致的理解,并最终生成连贯且上下文丰富的响应 1。

B. 双层检索范式:低层特异性与高层主题发现

LightRAG采用双层检索系统,以适应不同类型的查询需求,同时进行低层细节知识和高层概要知识的发现 1。

  • 低层检索 (Low-Level Retrieval):专注于检索关于特定实体及其属性或关系的精确信息。此层级的查询通常是细节导向的,旨在从图中的特定节点或边提取精确信息,通过匹配局部查询关键词到特定节点来实现 1。
  • 高层检索 (High-Level Retrieval):处理更广泛的主题和总体性问题。此层级的查询会聚合来自多个相关实体和关系的信息,提供对高层概念和摘要的洞察,而非具体细节,通过匹配全局查询关键词到与全局键关联的关系来实现 1。

该框架将图结构与向量表示相结合,以便高效检索相关实体与关系,并通过利用知识图谱中的结构信息来增强结果的全面性 1。检索算法还会收集检索到的图元素的局部子图中的邻近节点信息,以增强查询的高阶关联性 65。

C. 增量更新与效率提升

LightRAG包含一个增量更新算法,能够及时整合新数据,而无需重新处理整个外部数据库 1。当新文档加入时,系统会采用与初始图构建相同的基于图的索引步骤处理新文档,生成新的图数据,然后通过取节点集和边集的并集将其与原有图数据合并 65。这种方法旨在实现新数据的无缝集成,保持已建立连接的完整性,并通过避免重建整个索引图来降低计算开销。其关键的效率机制包括:索引阶段的选择性实体提取、分块处理以及并行处理 63。

D. 对比分析:LightRAG 与其他图RAG(例如PathRAG)

LightRAG声称其性能优于纯基于分块的RAG方法以及其他图增强RAG系统(如GraphRAG),尤其是在处理具有复杂语言上下文的大型数据集时 65。

然而,PathRAG (arXiv:2502.14902) 66 对此提出了不同看法。PathRAG认为LightRAG(以及GraphRAG)检索的信息存在冗余(例如,检索查询相关节点的所有直接邻居)。PathRAG的核心思想是仅检索查询相关节点之间的关键关系路径,并采用基于流的剪枝算法进行路径筛选,然后使用基于路径的提示词工程来指导LLM生成答案。PathRAG声称,相较于LightRAG,它能在将token成本降低16%的同时提供更好的性能;其轻量级版本PathRAG-lt更能将token成本降低44%,同时保持与LightRAG相当的性能。

LightRAG和其直接竞争者PathRAG的出现,突显了图RAG领域的一个核心议题:从知识图谱中检索的最佳信息单元是什么?是社区(GraphRAG采用的策略)、自我中心网络(LightRAG采用的策略),还是特定的路径(PathRAG采用的策略)?答案很可能取决于查询的复杂性和所需的答案粒度。最初,GraphRAG采用社区级别的检索。LightRAG将其细化为围绕关键实体/关系的自我中心网络,提供了更具针对性的检索。而PathRAG则认为即使是自我中心网络也可能过于宽泛和嘈杂,因此提出检索特定的推理路径。这清晰地展示了图RAG中检索单元向着日益细粒度和上下文相关的方向演进的趋势。未来的系统或许能够根据查询的特性动态地在这些不同粒度的检索单元之间进行选择。

IV. 新兴RAG架构与范式(2025年后创新)

A. 图增强RAG (GraphRAG) 及其生态系统

1. 知识图谱集成以深化上下文理解

GraphRAG通过利用知识图谱(KGs)改进复杂推理任务的信息检索,通过关系数据提供更精确和全面的检索,从而使LLM能够更有效地解释外部知识并生成更准确的回答 15。微软的GraphRAG实现利用社区检测和摘要生成技术,以支持可扩展的查询处理 70。

2. 专业化变体
  • KG-IRAG (基于知识图谱的迭代RAG, arXiv:2503.14234):该框架将知识图谱与迭代推理相结合,特别适用于处理涉及时间和逻辑依赖性的查询。它通过多步查询和周期性查询精化,从知识图谱中逐步收集相关数据,实现分步推理 67。这对于需要结合动态数据(如天气、交通状况)进行规划决策的场景尤为重要。
  • GraphRAG-FI (过滤与集成, arXiv:2503.13804) 68:此变体旨在解决GraphRAG中存在的检索信息嘈杂以及过度依赖外部知识的问题。
    • GraphRAG-Filtering:采用两阶段过滤机制(基于注意力机制的粗过滤和基于LLM的精细过滤)来提纯检索到的图信息。
    • GraphRAG-Integration:利用基于logits的选择策略来平衡来自GraphRAG的外部知识与LLM的固有推理能力。
  • Causal-First Graph-RAG (arXiv:2501.14892) 72:该方法在大型知识图谱中优先检索因果关系边,并将检索过程与LLM的思维链(Chain-of-Thought, CoT)对齐。它采用分层检索策略(首先是因果链接,然后是更广泛的相关性链接)和多阶段路径增强技术。

GraphRAG并非单一固化的方法,而是一个蓬勃发展的领域,其各种专业化变体正致力于解决特定的推理挑战,如时间推理、因果分析以及嘈杂数据过滤等。这种专业化趋势标志着该领域的日趋成熟。其演化路径可视为:通用的GraphRAG方法展现潜力但也暴露局限性(例如处理时间信息、噪声数据能力不足);研究人员识别出这些具体局限;针对这些特定问题,新的变体应运而生(如KG-IRAG处理时间问题,GraphRAG-FI处理噪声,Causal-First Graph-RAG处理因果推理)。这是一种自然的技术演进:通用方法 -> 发现弱点 -> 开发专门解决方案。这意味着用户未来需要根据其具体问题类型选择合适的GraphRAG变体,而非采用“一刀切”的GraphRAG方案。这也预示着为满足这些专业化推理需求,构建和维护定制化的知识图谱将变得越来越重要。

B. 自我意识RAG:反思、纠正与自适应

1. 自我反思与决策 (Self-RAG, SR-RAG)
  • Self-RAG (Asai等人, arXiv:2310.11511):训练LLM按需自适应地检索段落,并使用由评价模型(critic model)离线生成的“反思token”(如ISREL、ISSUP、ISUSE)来评价自身的生成内容和检索到的段落 15。它采用基于评价分数的段落级束搜索(segment-level beam search)78。
  • SR-RAG (Self-Routing RAG, arXiv:2504.01018) 83:使LLM能够动态地在外部检索和表达自身参数化知识之间做出决策。它采用多任务目标函数,联合优化知识源选择、知识表达和响应生成。此外,SR-RAG引入了基于最近邻搜索的动态知识源推断机制,以应对领域迁移问题。
2. 纠正性检索与引用修复 (CRAG, CiteFix)
  • CRAG (Corrective RAG, Yan等人, 2024):使用轻量级检索评估器评估文档质量(正确、错误、模糊)。对于错误或模糊的数据,会触发网络搜索。CRAG还采用“分解-再重组”算法进行知识提炼 15。
  • CiteFix (arXiv:2504.15629) 23:通过后处理LLM响应来提高引文准确性。它利用关键词+语义匹配、微调的BERTScore模型或轻量级LLM匹配等方法,将生成的引文与检索到的文章进行交叉核对。
3. 基于强化学习的检索与验证 (SEARCH-R1, SIM-RAG)
  • SEARCH-R1 (arXiv:2503.09516) 1:这是一个强化学习框架,LLM在其中学习在逐步推理过程中自主生成搜索查询,并结合实时检索。它扩展了像DeepSeek-R1 Zero这样的模型,引入了检索交错的推理和基于结果的奖励。该框架通过迭代检索支持自我验证。
  • SIM-RAG (arXiv:2505.02811) 82:旨在增强RAG的自我意识和多轮检索能力。它使用一个“评价者”模型(微调的Flan-T5)在每一轮评估信息是否充分。该框架采用“自我实践算法”生成带有中间内部独白推理步骤的合成训练数据,并自动标记路径的成功与否。它利用来自评价者的上下文强化学习和口头反馈(接受/拒绝)来指导作为推理器的LLM。
4. 细粒度内容处理 (ChunkRAG)
  • ChunkRAG (arXiv:2410.19572) 76:应用动态贪婪聚合进行语义分块,并结合自我反思和评价者模型进行高级过滤,以在分块级别优化检索结果。

“自我意识”趋势(包括自我反思、自我纠正、自我路由、自我实践)是迈向更自主、更可靠RAG系统的重要一步。这些系统不再仅仅是被动地消费检索到的数据,而是主动地管理和评价检索与生成过程。其发展逻辑是:首先,研究者意识到RAG系统可能检索到不相关或质量差的信息,或者LLM可能错误地使用高质量信息;其次,解决方案是内置机制让RAG系统进行自我评估;具体实现上,Self-RAG/SR-RAG让LLM决定是否需要检索并评价输出,CRAG/ChunkRAG在生成前评估检索到的文档/分块,而SEARCH-R1/SIM-RAG则学习如何更好地检索或判断何时检索已足够。这种内部反馈回路是无需持续人工干预即可提高鲁棒性和准确性的关键。这意味着RAG系统的复杂性正在增加,但这种增加的复杂性旨在提高其自主性,并减少用户进行大量提示工程或事后过滤的需求。

C. 自适应与智能体RAG框架

1. 自适应RAG (Adaptive RAG)

自适应RAG根据查询的复杂性动态调整其检索策略 15。

  • MBA-RAG (arXiv:2412.01572) 10:利用多臂老虎机算法,根据查询复杂性选择最合适的检索策略(“臂”)。它采用动态奖励函数来平衡准确性和效率(惩罚高成本方法),并使用DistilBERT进行查询编码。
  • LLM无关的自适应RAG (arXiv:2505.04253) 1:引入轻量级的外部信息特征(7组27个特征)来决定是否需要检索,从而避免了低效的基于LLM的不确定性估计。据称,在处理复杂问题时,其性能优于基于不确定性的方法。
  • 加速自适应RAG (arXiv:2505.12731) 94:提出指令驱动的表示缩减方法(Instruction-Driven Representation Reduction, IDR2),通过减少迭代过程中检索内容重叠导致的冗余计算来提高A-RAG的效率。该方法包括用于预填充的跨迭代缓存共享(Cross-Iteration Cache Sharing, CICS)、指令驱动的去重引导强化(Instruction-driven Deduplication Guidance Reinforcement, IDGR)以及用于解码的信息引导并行生成(Information-Guided Parallel Generation, IGPG)。据称,IDR2在预填充和解码阶段分别平均提速2.79倍和2.33倍。
2. 智能体RAG (Agentic RAG)

智能体RAG将自主AI智能体嵌入到RAG流水线中,以动态管理检索策略、优化上下文理解并自适应调整工作流程 97。

  • 基本原则:智能体利用反思、规划、工具使用和多智能体协作等能力 99。
  • ReasonRAG (arXiv:2505.14069) 103:采用过程监督强化学习,为查询生成、证据提取和答案生成等环节提供细粒度的过程级奖励(最短路径奖励估计 - SPRE)。它通过蒙特卡洛树搜索(MCTS)进行探索,构建了RAG-ProGuide数据集。据称,ReasonRAG仅用少量训练数据(5千查询,1万3千过程级步骤)即可超越像Search-R1这样的结果监督方法(Search-R1需要9万训练实例)。
  • LLM智能体综述 (arXiv:2503.21460) 104:这篇综述对LLM智能体的构建(配置文件、记忆、规划、行动)、协作(集中式、分散式、混合式)和进化(自学习、协同进化、外部资源)进行了全面概述,为理解智能体RAG的宏观背景提供了重要参考。
  • KnowTrace (arXiv:2505.20245) 105:将迭代式RAG重新表述为知识图谱扩展过程。LLM扮演主动追踪者的角色,迭代地探索并补全与问题相关的知识三元组,以构建一个针对该问题的知识图谱。该框架利用知识回溯机制进行自我引导式微调,提炼有贡献的生成内容。
  • Collab-RAG (arXiv:2504.04915) 107:这是一个协作式训练框架,其中白盒小型语言模型(SLM)负责分解查询,而黑盒LLM充当阅读器,通过迭代式偏好优化(SFT + DPO)提供反馈以改进SLM的分解能力。

RAG与智能体AI的融合代表了一个重要的前沿方向。这些系统正从静态的流水线演变为动态的、由推理驱动的工作流,其中LLM主动参与并优化检索过程本身。其发展脉络可概括为:基础RAG是一个线性流程;自适应RAG引入了决策点(例如,是否检索,使用哪个检索器);智能体RAG则更进一步,将LLM驱动的智能体置于这些决策点和整个工作流的控制位置。这使得系统能够执行更复杂的多步骤推理,并与外部工具/知识进行交互。强化学习等技术(如ReasonRAG、SEARCH-R1)对于训练这些智能体至关重要。这意味着RAG系统的设计越来越类似于自主系统的设计,除了传统的IR和NLP专业知识外,还需要规划、工具使用和强化学习等领域的专业知识。

D. 掌握上下文:长文档与多模态信息

1. 长上下文RAG创新

长上下文处理旨在解决LLM在处理长文档时遇到的“中间信息丢失”问题和token限制问题 15。

  • LongRAG:通过处理更长的检索单元(如章节或整个文档)来提高效率并保留上下文 15。它也可能涉及多步骤生成 13。
  • MacRAG (arXiv:2505.06569) 13:一个分层RAG框架,它将文档压缩并划分为从粗到细的粒度,然后通过实时的块级和文档级扩展自适应地合并相关上下文。该方法保留了原始文档结构,避免了高成本的聚类操作。
  • RetroLM (arXiv:2502.11444) 28:采用KV级检索增强。它将LLM的KV缓存划分为页面,将其卸载,并在预填充和解码期间检索关键页面。这种方法对检索不准确具有鲁棒性,并能有效利用碎片化上下文。
  • OP-RAG (Order-Preserve RAG):根据相关性检索靠前的分块,但保持它们在原始文档中的顺序,以保留逻辑流程 27。
  • 上下文利用机制研究 (arXiv:2505.11995) 109:研究LLM在RAG中如何整合内部和外部知识。确定了四个阶段:知识提炼、知识引导、知识表达和知识竞争。引入KAPE(知识激活概率熵)方法来识别与特定知识源相关的神经元。
2. 多模态RAG (MRAG)

MRAG将RAG的应用范围从文本扩展到图像、视频和音频等多种模态 110。

  • 通用策略:文本化 (Text-grounding):将所有模态的信息转换为文本描述,以便进行嵌入和检索 118。原始模态数据被存储并链接。
  • MMKB-RAG (Multi-Modal Knowledge-Based RAG, arXiv:2504.10074) 115:利用多模态LLM(MLLM)固有的知识边界来动态生成用于检索的语义标签。其过程包括三个阶段:判断检索必要性、评估相关性以及验证一致性。
  • Multi-RAG (arXiv:2505.23990) 116:专为自适应视频理解而设计,通过将视频、音频和文本等所有输入转换为统一的文本表示来整合多模态信息。
  • 相关的开源视觉语言模型 (VLMs) 112:Gemma 3、Llama 3.2 Vision、NVLM 1.0、Molmo、Qwen2.5-VL、Pixtral等模型为MRAG提供了基础的多模态理解能力。
  • MRAG综述 (arXiv:2504.08748) 122:回顾了MRAG的组件、数据集、评估方法和局限性。
  • 计算机视觉中的RAG (arXiv:2503.18016) 123:综述了RAG在视觉理解(图像识别、医学报告生成)和视觉生成(图像、视频、3D)中的应用。

RAG正迅速超越纯文本处理,以应对现实世界中信息通常是长篇幅且多模态的复杂性。这要求在上下文表示、检索和融合方面采用新的方法。对于长文档,分层分块(MacRAG)、KV缓存检索(RetroLM)和顺序保留(OP-RAG)等技术旨在有效管理上下文。对于多模态信息,当前的普遍做法是将其转换为文本(文本化),但未来的趋势可能是发展真正的多模态嵌入和检索技术,正如一些研究 118 所暗示的那样。这使得RAG能够应用于更广泛的现实问题。相应地,RAG的基础设施也需要发展,以支持对不同数据类型和超长文档的高效存储、索引和检索。多模态LLM正成为这些高级RAG系统的核心。

E. 处理信息完整性:冲突与投毒

1. 解决检索信息冲突

RAG系统必须能够处理模糊查询以及来自多个来源的潜在冲突信息 124。

  • Madam-RAG (arXiv:2504.13079) 32:采用多智能体辩论方法。每个文档分配给一个独立的智能体。一个聚合器负责综合各个智能体的响应。通过多轮辩论,智能体可以捍卫、质疑或修正自己的主张,从而促进达成一致。该方法在AmbigDocs和FaithEval等数据集上进行了评估,并引入了结合模糊性和错误信息的RAMDocs数据集。
  • Astute RAG (arXiv:2410.07176) 125:自适应地引出LLM的内部知识,迭代地整合具有来源意识的内部/外部知识,并根据信息可靠性最终确定答案。该方法专注于后检索阶段。
  • 知识冲突综述 (arXiv:2405.10689) 124:对知识冲突(上下文-记忆冲突、上下文间冲突、记忆内冲突)的类型、原因、LLM在此类冲突下的行为以及缓解策略(事前和事后)进行了分类。
  • 不同用户需求/上下文设置下的RAG评估 (arXiv:2502.19779) 128:研究了在上下文排他、上下文优先、记忆优先等用户需求下,以及在上下文匹配、知识冲突、信息不相关等上下文设置中,RAG/RALM的表现。研究发现当前的LLM难以适应这些变化,且模型家族是行为差异的主导因素。
2. 防御知识库投毒

外部知识库可能成为对抗性攻击(知识库投毒)的目标 34。

  • EcoSafeRAG (arXiv:2505.13506) 34:一个不依赖LLM内部知识的防御框架。它使用句子级处理来暴露攻击特征,并采用诱饵引导的上下文多样性检测(使用带有诱饵样本的DBSCAN聚类)通过分析上下文多样性来识别恶意内容。

随着RAG系统变得越来越强大并深度集成到各类应用中,确保其可信度和抵御操纵的能力至关重要。这不仅包括提高事实准确性,还包括开发机制来处理模糊性、蓄意的错误信息和对抗性攻击。其发展逻辑是:首先,研究者发现检索到的信息可能是错误的、相互冲突的或恶意的;其次,针对冲突/模糊性的解决方案是采用多智能体辩论(Madam-RAG)或具有来源意识的整合(Astute RAG)来权衡证据并给出细致的答案;再次,针对投毒的解决方案是通过分析上下文模式(EcoSafeRAG)来检测攻击者引入的异常。这表明RAG系统正朝着能够批判性评估其信息来源的方向发展。因此,安全性和鲁棒性正成为RAG设计中不可或缺的组成部分,而不仅仅是事后的补救措施。这可能催生出“对抗性训练”的RAG组件或专门的“RAG防火墙”。

V. 优化引擎:面向RAG的LLM微调与对齐

A. Transformer²:用于动态任务调整的自适应LLM

由Sakana AI的Sun、Cetin和Tang提出 130,Transformer² 框架旨在使LLM能够在实时处理中动态调整其内部机制,通过奇异值微调(Singular Value Fine-tuning, SVF)和强化学习(RL)训练的“专家向量”,选择性地调整其权重矩阵的奇异值。该框架采用双通道推理机制:第一通道评估任务特性,第二通道则利用混合的专家向量进行自适应并生成答案。其潜在优势包括更高的效率(避免了完全微调)、增强的实时适应能力以及更强的通用性。

Transformer² 代表了LLM自适应能力方面的一个根本性转变。如果基础LLM能够根据给定任务(以及检索到的上下文)动态调整其参数以更好地利用这些上下文,那么对特定RAG任务进行微调的需求可能会减少。其核心思路是:传统的LLM微调针对每个RAG任务成本高昂;那么,LLM能否在推理过程中根据任务(和检索到的上下文)自我调整?Transformer² 通过调整奇异值(权重矩阵作用的紧凑表示)并使用小型“专家向量”来实现这一点,允许一个基础模型动态地专门化。如果这种方法成功且具有普适性,它可能使RAG系统更加通用,并减少为不同RAG应用创建大量微调模型的必要性。这将部分“适应”的负担从RAG流水线转移到了LLM本身。

B. 面向RAG对齐的强化学习技术 (PPO, DPO, GRPO)

强化学习从人类反馈中学习(Reinforcement Learning from Human Feedback, RLHF)和从AI反馈中学习(RLAIF)被用于使LLM的行为与人类在有益性、诚实性和无害性方面的偏好对齐 132。

  • DPO (Direct Preference Optimization, 直接偏好优化):通过直接从偏好数据优化LLM策略,简化了对齐过程,无需显式训练奖励模型 132。
    • "少即是多" (Less is More, arXiv:2502.14560) 133:该研究提出了一种用于DPO的双边距引导数据选择方法(综合外部奖励边距和隐式DPO奖励边距),通过解决由噪声数据引起的参数收缩问题,从而降低计算成本(例如,仅使用Ultrafeedback数据集的10%即可在Llama和Mistral系列模型上实现3-8%的性能提升)并提高模型性能。该方法也适用于迭代DPO。
  • GRPO (Group Relative Policy Optimization, 组相对策略优化):一种内存高效的强化学习算法,适用于数学、编码等复杂任务 139。它为每个问题生成多个答案,使用奖励模型对答案进行评分,并使用这些答案的平均分作为基准来计算优势,从而无需单独的价值函数。DeepSeek R1 140 和 SQL-R1 143 等模型均采用了GRPO。
    • MM-UPT (arXiv:2505.22453) 142:研究了GRPO在多模态LLM无监督后训练中的应用,采用基于多数投票的自奖励机制。
  • RAG-Reward (arXiv:2501.13264) 144:该框架旨在为RAG开发奖励模型(评估指标包括:幻觉、全面性、冗余度和归属性),并利用RLHF(特别是RAFT算法)来增强RAG的输出。它使用o3-mini模型来标注偏好对。

强化学习技术正变得越来越复杂和数据高效,以便专门针对RAG进行LLM对齐。这已超越了一般的偏好调整,转向优化RAG特有的品质,如对检索上下文的忠实度和有效知识整合能力。其基本逻辑是:监督微调(SFT)教会模型说什么,而RLHF/DPO/GRPO则根据偏好教会模型如何说。对于RAG而言,这些偏好包括:使用上下文、基于事实、引用来源、不基于上下文产生幻觉等。DPO和GRPO为此提供了比传统基于PPO的RLHF更有效的对齐方法。针对DPO的数据选择策略 133 和专门的奖励模型(如RAG-Reward 144)是RAG对齐的关键。这意味着针对RAG的LLM“对齐”过程将成为一个专门的子领域,需要针对检索增强任务量身定制数据集和奖励函数。

C. 监督微调 (SFT) 与知识感知方法 (KaFT)

SFT旨在使预训练LLM适应专门应用,以提高性能、控制输出风格、传授领域知识并减少幻觉 146。关键步骤包括:定义用例、设置环境、准备数据集(可为合成数据、现有数据或人工标注数据),以及使用TRL的SFTTrainer等框架进行训练 146。

  • 领域特定问答中SFT的挑战:知识冲突:LLM的内部(参数化)知识与训练数据中的上下文知识之间可能存在差异。传统的SFT方法可能并非最佳选择。在存在较大知识冲突的数据上进行SFT甚至可能导致灾难性的性能下降 149。
  • KaFT (Knowledge-aware Fine-Tuning, 知识感知微调, arXiv:2505.15480)
    • 旨在解决SFT中的知识冲突问题。
    • 提出了一种查询多样化策略,用于鲁棒地检测冲突。
    • 核心思想是:根据训练样本的冲突级别分配不同的奖励来调整训练权重。研究表明,恰当应用冲突数据比直接过滤掉更有益。
    • 据称,KaFT在多种LLM上均带来了一致且显著的性能提升,增强了模型的泛化能力并减轻了幻觉。
  • RAIT (Refusal-Aware Instruction Tuning, 拒绝感知指令调优) 与 CRaFT (Certainty Represented Knowledge Flow for RAIT, 用于RAIT的确定性表示知识流) 124:RAIT通过将未知问题的训练响应修改为“我不知道”等形式,使LLM能够拒绝回答未知问题。CRaFT则致力于解决RAIT中由静态和动态知识冲突导致的过度拒绝问题。

D. 面向高效RAG的蒸馏技术 (DRAG for SLMs)

  • DRAG (Distilling RAG for SLMs from LLMs, 将RAG能力从LLM蒸馏到SLM, arXiv:2506.01954) 18:
    • 旨在将大型LLM(教师模型)的RAG能力迁移到小型LM(学生模型),同时减轻幻觉。
    • 采用基于证据和知识图谱的蒸馏方法。
    • 过程包括:1) 教师LLM生成证据;2) RAG证据排序;3) 图RAG生成;4) SLM评估与蒸馏。
    • 通过将SLM的预测与教师模型提供的结构化知识图谱和排序证据对齐。
    • 据称,其性能比先前的MiniRAG等面向SLM的RAG方法提升高达27.7%。

将RAG能力赋予更小、更高效的模型对于其广泛应用至关重要,尤其是在资源受限的环境或边缘设备上。蒸馏是实现这一目标的关键技术。其逻辑在于:强大的RAG通常依赖于大型、昂贵的LLM;然而许多应用场景需要在更小、更经济、更快速的SLM上实现RAG功能。如何将大型LLM的RAG能力迁移到SLM上?DRAG提出利用大型LLM生成“丰富”的训练数据(如证据、知识图谱片段),SLM可以从中学习,从而有效地蒸馏RAG过程。这有望使高级RAG技术大众化,但蒸馏的质量将严重依赖于教师LLM的能力以及蒸馏过程的设计。

VI. 新一代RAG系统评估

A. 演进中的评估指标:超越精确率与召回率

传统的IR指标(如Precision@K, Recall@K, MRR, NDCG)仍用于评估检索组件 1。NLG指标(如BLEU, ROUGE, Perplexity)用于评估生成部分,但存在局限性 1。

2025年,涌现出更多针对RAG特性的评估指标,通常借助LLM进行评估:

  • 上下文相关性/精确率 (Context Relevance/Precision):检索到的文档是否与查询匹配?1
  • 上下文召回率 (Context Recall):是否所有相关文档都被检索出来了?156 (RAGAS中的LLMContextRecall和NonLLMContextRecall 156)
  • 上下文充分性/全面性 (Context Sufficiency/Comprehensiveness):检索到的上下文是否足以回答问题?1
  • 答案相关性 (Answer Relevance):生成的答案是否针对查询?1
  • 忠实度/答案幻觉/依据性 (Faithfulness/Answer Hallucination/Grounding):答案是否基于提供的上下文?1
  • 答案正确性/事实准确性 (Answer Correctness/Factual Accuracy):与基准事实相比,答案是否准确?1

名为“大型语言模型时代的检索增强生成评估综述”(Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey, arXiv:2504.14891) 的研究 1 对传统和新兴的评估方法(针对系统性能、事实准确性、安全性、计算效率)进行了全面梳理,并涵盖了对分块和嵌入等上游组件的评估需求。AUEPORA框架 (arXiv:2405.07437) 153 则提供了一个统一的RAG评估流程,审视检索和生成组件的可量化指标。

B. 2025年关键基准测试

  • ARES (Automated RAG Evaluation System, arXiv:2311.09476) 1:利用合成数据生成和微调的轻量级语言模型作为“裁判”,评估上下文相关性、答案忠实度和答案相关性。采用预测驱动推理(Prediction-Powered Inference, PPI)。
  • RAGBench (arXiv:2407.01300) 80:大规模(10万样本)基准,覆盖5个行业特定领域。使用可解释标签(相关性、利用率、完整性)和TRACe框架。
  • CRUD-RAG (arXiv:2401.17043) 80:一个全面的中文RAG基准,将RAG应用分为创建(Create)、读取(Read)、更新(Update)、删除(Delete)四类,并系统分析RAG各组件的影响。
  • MIRAGE (Metric-Intensive RAG Evaluation, arXiv:2504.17137) 13:包含7560个精心策划的实例和37800个条目的检索池。引入了评估RAG适应性的新指标:噪声脆弱性、上下文可接受性、上下文不敏感性和上下文误解。
  • CReSt (Complex Reasoning over Structured Documents, arXiv:2505.17503) 13:包含2245个人工标注的英语/韩语样本,专为需要对结构化文档(HTML, PDF)进行复杂推理的RAG场景设计。包含拒绝回答的案例和引文准确性评估。
  • ProBench (arXiv:2502.20868) 167:在竞技编程领域对LLM进行基准测试(C++, Java, Python),题目源自Codeforces, Luogu, Nowcoder(2024年7月-12月)。采用在线提交方式进行评估。评估维度包括:思维链分析、错误类型诊断、推理深度。
  • InfoDeepSeek (arXiv:2505.15872) 102:用于评估在动态网络环境中智能体信息搜寻能力的基准。其方法论包括:基于事实的查询构建、过滤与提炼、多阶段验证。评估指标包括:答案准确率、信息准确率@k、有效证据利用率、信息紧凑性。
  • MEMERAG (Multilingual End-to-End Meta-Evaluation RAG, arXiv:2502.17163) 165:基于MIRACL构建的、面向忠实度和相关性的原生多语言元评估基准,采用专家人工标注。
  • 其他值得关注的基准:RGB(评估噪声鲁棒性、负面拒绝、信息整合、反事实鲁棒性)80;RECALL(衡量是否检索到所有相关信息)80;BeIR(异构信息检索基准)80。

C. LLM在自动化RAG评估中的作用

LLM正越来越多地被用作“裁判”来评估RAG的输出 1。这通常涉及提示LLM对忠实度、相关性等方面进行打分 154。专门为评估任务训练的LLM(如Lynx, Glider 154)也开始出现。arXiv:2504.20119的综述 7 探讨了利用LLM对RAG各组件进行自动化评估的可行性,这些LLM既能生成评估数据集,也能执行评估任务。

尽管基于LLM的评估具有可扩展性,但其相对于人工判断或微调的小型分类器的可靠性仍是一个活跃的研究领域。例如,RAGBench的研究发现,基于LLM的方法在与微调的RoBERTa模型竞争时表现不佳 80。其内在逻辑是:用LLM评估RAG输出的复杂性和成本远低于人工评估;LLM可以对相关性、忠实度等多个维度进行评分(如RAGAS, ARES)。然而,LLM裁判本身是否总是更优或更可靠?不一定。一些研究表明,对于特定的子任务,更小、更专业的分类器甚至传统指标可能更一致,或与人类判断的相关性更高。核心挑战在于确保LLM裁判在评估过程中自身不产生幻觉或带有偏见。因此,2025年最稳健的RAG评估策略很可能是混合式的,即结合自动化的LLM评估指标、人工监督以及有针对性的非LLM指标。像MEMERAG 165 这样的“元评估”基准的开发,对于验证自动化评估器的有效性至关重要。

下表总结了2025年一些重要的RAG评估基准和框架:

表1: 2025年主要RAG评估基准与框架

基准/框架名称

评估焦点

主要指标

数据特征/来源

相关ArXiv ID/来源

ARES

组件级(检索/生成),上下文相关性,答案忠实度,答案相关性

上下文相关性,答案忠实度,答案相关性

合成数据,KILT, SuperGLUE, AIS

1

RAGBench

端到端,行业特定领域,可解释标签

相关性,利用率,完整性 (TRACe框架)

行业手册等工业语料库 (5个领域,10万样本)

80

CRUD-RAG

中文RAG应用分类 (创建, 读取, 更新, 删除),组件影响分析

任务特定指标 (如RAGQuestEval的Recall, Precision)

网络爬取,GPT-4生成,人工标注 (近期新闻数据)

80

MIRAGE

RAG适应性,检索与生成组件评估

噪声脆弱性,上下文可接受性,上下文不敏感性,上下文误解

精选QA对 (7560实例),检索池 (37800条目),源自PopQA, NQ等

13

CReSt

结构化文档(HTML, PDF)的复杂推理,拒绝回答,引文准确性

任务完成度,引文F1,拒绝准确率

人工标注的英/韩语样本 (2245例),网页,PDF

13

ProBench

LLM代码推理(竞技编程)

通过率@k,思维链分析,错误类型诊断,推理深度

Codeforces, Luogu, Nowcoder竞赛题目 (2024.7-12月)

167

InfoDeepSeek

智能体在动态网络环境中的信息搜寻

答案准确率 (ACC),信息准确率 (IA@k),有效证据利用率 (EEU),信息紧凑性 (IC)

基于事实构建的挑战性问题 (多跳,长尾,时间敏感等)

102

MEMERAG

多语言RAG元评估(忠实度,相关性)

与人类判断的相关性 (针对自动评估器)

基于MIRACL的原生多语言问题和LLM生成答案,专家人工标注

165

__VII. 更广泛的LLM生态系统趋势对RAG的影响 __175

RAG并非孤立发展,其进步与更广泛的LLM生态系统趋势紧密相连。

  • 更小、更高效的模型:紧凑型LLM(如TinyLlama, Mixtral 8x7B)和稀疏专家模型的兴起 177,使得RAG系统更易于部署且成本更低。特别是当小型模型能被有效微调用于RAG流水线中的检索或生成环节时(例如,DRAG for SLMs 18),这一优势更为明显。
  • 多模态AI:MLLM(如GPT-4o, Gemini 2.0, Llama 3.2 Vision)的崛起直接推动了多模态RAG的发展,将RAG的应用从文本扩展到图像、视频和音频等多种模态 177。
  • 实时事实核查与外部数据访问:RAG本质上就是一种外部数据访问系统。LLM内置实时互联网访问等趋势(如Microsoft Copilot 177)与RAG框架形成互补,甚至可能被整合到RAG框架内部,例如RAG提供更结构化/经过筛选的外部知识。
  • 合成训练数据:LLM生成自身训练数据的能力 177,可用于为RAG组件的训练创建专门的数据集,或为RAG评估生成多样化的查询。
  • 企业集成与领域特定LLM:随着LLM日益融入企业工作流程 177,将这些LLM连接到企业专有知识库的RAG需求将激增。领域特定LLM(如BloombergGPT, Med-PaLM 177)通常也需要RAG来获取最新或最详细的领域信息。

RAG的发展并非孤立事件。更广泛的LLM生态系统中的进步,如模型小型化、多模态能力增强以及智能体功能的出现,正直接催生更复杂、更多样化的RAG应用。反过来,RAG的需求(例如,对更可靠的事实基础、动态知识更新的需求)也在一定程度上驱动着LLM的发展重点。例如,LLM变得更小、更高效,使得部署包含多个LLM组件(用于重排序、生成、评估等)的复杂RAG流水线更为可行。LLM的多模态化直接促成了多模态RAG的实现。LLM正被构建用于企业级应用,而企业拥有海量的私有知识库,这使得RAG成为必不可少的组件。这些趋势是协同发展的。RAG和LLM的演进紧密耦合,一个领域的突破很可能迅速推动另一个领域的进步。

VIII. 高级RAG系统应用实例

A. NL2SQL (自然语言转SQL)

LLM与RAG的结合正在改变用户与数据库交互的方式,通过将自然语言查询转换为可执行的SQL语句,降低了数据库访问的技术门槛 181。其典型架构包括用户界面、后端API、模式提取与缓存、用于筛选相关表/字段的排序模型、提示增强模块、用于SQL生成的LLM以及SQL执行模块 186。

  • SQL-R1 (arXiv:2504.08600) 188:这是一个通过强化学习(具体为GRPO算法)训练的新型NL2SQL推理模型。它设计了针对NL2SQL任务的专门奖励函数(格式奖励、执行奖励、结果奖励、长度奖励),并采用SFT进行冷启动,然后进行RL训练。该模型仅使用7B参数的基础模型,就在Spider和BIRD等基准测试中取得了较高的执行准确率。
  • Arctic-Text2SQL-R1 190:这是另一个基于RL的Text-to-SQL模型,同样采用GRPO,其奖励信号仅基于执行正确性,更为轻量级。该模型强调以数据为中心的训练方法(如筛选基准数据集、基于模型的合成数据过滤)。
  • 挑战:NL2SQL领域面临的主要挑战包括自然语言的模糊性、数据库模式和SQL查询的复杂性、高质量训练数据的稀缺性、执行效率以及结果的可信度等 182。
  • 相关综述:arXiv:2408.05109 182 和 arXiv:2410.01066 192 等论文对基于LLM的NL2SQL技术进行了全面的回顾。

B. 法律科技:文档审阅、合同分析与法律研究

AI技术,特别是生成式AI,正在深刻改变法律行业的传统工作模式,例如文档审阅、法律研究以及合同分析和起草等任务 194。AI智能体有望自动化复杂的法律工作流程,包括起草合同和处理索赔 195。

  • 效益:AI的应用显著提高了效率(据估计,AI每周可为每位律师节省4小时工作时间),改善了合规性,降低了成本,并增强了客户服务(例如,更有效地处理海量数据,更快的响应时间)195。
  • 挑战:AI模型的成本、数据安全(如提示注入攻击)、法律参考的准确性以及数据保护等问题仍是法律领域应用AI面临的主要挑战 195。

C. 科学发现与医疗健康

  • 复杂科学文献理解:MAL-RAG等技术被应用于理解复杂的科学文献,例如在糖科学领域 25。
  • 智能体辅助科研:AI智能体可用于科学研究中的假设生成、实验设计和学术同行评审等环节 99。
  • 医学RAG应用:RAG被用于医学问答、临床决策支持以及多组学数据的解读 99。Causal-First Graph-RAG则专注于医学和法律等需要因果推理的领域 72。

D. 其他应用领域

  • 高级搜索:DeepSeek-R1等模型通过先进的嵌入技术和上下文处理能力增强RAG系统,以实现精准信息检索 198。
  • 内容生成:Gemini 2.5 Pro, ChatGPT-4o等LLM被用于高质量文章写作、SEO帖子、小说、论文等的生成 125。
  • 多模态应用:例如视觉问答(MMKB-RAG 115)、自适应视频理解(Multi-RAG 116)和图像描述(VLMs如Gemma 3等 194)。
  • 软件开发:LLM智能体辅助代码生成和调试 176。ProBench基准 167 则专注于评估LLM在竞技编程中的能力。
  • 通用生产力工具:LLM智能体被用于自动化各种任务 99。

IX. 总结:RAG的未来轨迹

A. 关键创新回顾

2025年至今,RAG领域的核心创新可以概括为:向更智能、自适应、图增强和自我意识的检索范式转变;针对长篇内容、多模态信息和信息完整性的专业化处理;为RAG量身定制的LLM优化技术(如Transformer²、强化学习、知识感知微调);以及评估方法论和基准测试的日趋成熟。

B. 持续存在的挑战

尽管取得了显著进展,RAG系统仍面临诸多挑战 206:

  • 可扩展性与成本:高级RAG流水线的计算和存储成本。
  • 鲁棒性:抵御日益复杂的对抗性攻击和错误信息。
  • 真正的多跳推理与知识综合:实现更深层次的知识连接和整合。
  • 评估标准化:尤其针对智能体RAG和多模态RAG。
  • 伦理考量:检索数据中的偏见、联邦环境下的隐私保护等。

C. RAG在演进中的AI版图中的展望

RAG将继续作为LLM获取事实依据、保持知识更新和领域感知能力的核心技术。RAG、智能体AI和核心LLM能力之间的界限将进一步模糊。LLM本身可能会内化一些类似RAG的功能(例如Transformer²的自适应调整)。联邦RAG 49 对于隐私敏感的企业应用将至关重要。“检索”组件将变得越来越复杂,融合结构化推理(如图、逻辑)和动态规划。评估体系也需要协同进化,更侧重于基于任务的成功率、鲁棒性和效率,而非仅仅是组件级指标。

多篇近期的综述也为我们描绘了RAG的发展蓝图。例如,arXiv:2506.00054 3 对RAG架构进行了分类(以检索器为中心、以生成器为中心、混合式、面向鲁棒性),并讨论了自适应检索、实时集成和隐私保护机制等开放性挑战。arXiv:2503.10677 5 则聚焦于知识型RAG,强调了知识选择、检索和上下文推理方面的挑战。

总而言之,2025年的RAG已远不止于“检索文档”,而是致力于构建“知识密集型推理系统”。该领域正迅速向更自主、更鲁棒、上下文理解更复杂的方向发展,以期将外部知识与LLM的推理能力更深度地融合。其演进逻辑是:RAG最初作为赋予LLM外部事实访问能力的手段而出现;很快,研究者意识到如何检索以及如何整合信息至关重要;这推动了RAG流水线各个环节的进步,包括更智能的分块、混合/图检索、自适应策略、自我纠正以及更优化的RAG专用LLM微调;当前的前沿是使RAG更具智能体特性(能够规划和执行检索策略)和鲁棒性(能够处理复杂、嘈杂甚至对抗性的信息);而评估方法则在不断努力跟上这些发展步伐。RAG的未来与通用人工智能(AGI)的未来紧密相连,因为它正在解决动态环境中知识表示、推理和学习等基本问题。

下表对2025年以来涌现的一些代表性高级RAG架构进行了比较:

表2: 2025年以来主要高级RAG架构对比

架构名称/论文ID

核心机制/新颖性

主要创新点

主要解决的问题

相关ArXiv ID

LightRAG

基于图的双层检索

图索引,局部/全局检索,增量更新

效率,多跳推理,上下文感知

61

PathRAG

基于关系路径的检索与提示

流式剪枝,路径式提示

检索冗余,提升逻辑性

66

Self-RAG

反思token与自适应检索

检索决策,生成内容批判

幻觉,检索质量,固定检索

78

CRAG

检索评估器与网页搜索

检索内容质量评估,动态知识补充

检索错误,知识库局限

80

Madam-RAG

多智能体辩论

独立文档处理智能体,聚合器,多轮辩论

信息冲突,模糊性,错误信息

32

EcoSafeRAG

句子级处理与诱饵引导的上下文多样性检测

无需LLM内部知识的恶意内容识别

知识库投毒,RAG安全性

34

MBA-RAG

基于多臂老虎机的自适应检索策略选择

查询复杂度感知,动态奖励函数

不同复杂度查询的效率与准确性平衡

10

ReasonRAG

基于过程级奖励的智能体RAG

SPRE奖励,MCTS探索,RAG-ProGuide数据集

结果监督RL的低效与梯度冲突

103

KnowTrace

结构化知识追踪与知识图谱扩展

迭代式知识三元组探索与补全,知识回溯自学习

上下文过载,多跳推理质量

105

MacRAG

多尺度自适应上下文

分层压缩与分区,实时块级/文档级扩展

长文档处理,上下文管理

13

RetroLM

KV级检索增强

KV缓存分页与检索

长上下文处理效率,检索不准确鲁棒性

28

CiteFix

后处理引文修正

关键词/语义匹配,微调模型,轻量级LLM

RAG引文不准确

23

GraphRAG-FI

图RAG过滤与集成

两阶段过滤,基于logits的内外知识平衡

图检索噪声,过度依赖外部知识

69

Causal-First Graph-RAG

优先因果边的图RAG

因果图构建,CoT驱动的因果路径检索

图RAG中的因果推理与可解释性

72

TELERAG

前瞻性检索与CPU/GPU协同

IVF集群预测与预取,数据移动与计算重叠

大规模RAG推理延迟

30

Federated RAG

联邦学习与RAG结合

分布式知识源的隐私保护检索与生成

数据隐私,跨孤岛知识访问

49

SIM-RAG

自我实践与评价者引导的多轮RAG

内部独白数据生成,评价者模型判断信息充分性

多轮检索中的过度检索/置信

82

Collab-RAG

SLM与LLM协作式RAG

SLM分解查询,LLM生成并反馈,迭代偏好优化

复杂问答中的检索与推理

107

引用的著作
  1. Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2504.14891v1
  2. [2504.14891] Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2504.14891
  3. [2506.00054] Retrieval-Augmented Generation: A Comprehensive Survey of Architectures, Enhancements, and Robustness Frontiers - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2506.00054
  4. (PDF) Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey - ResearchGate, 访问时间为 六月 3, 2025, https://www.researchgate.net/publication/390991356_Retrieval_Augmented_Generation_Evaluation_in_the_Era_of_Large_Language_Models_A_Comprehensive_Survey
  5. [2503.10677] A Survey on Knowledge-Oriented Retrieval-Augmented Generation - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2503.10677
  6. A Survey on Knowledge-Oriented Retrieval-Augmented Generation - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2503.10677v2
  7. Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, 访问时间为 六月 3, 2025, https://arxiv.org/html/2504.20119v2
  8. Retrieval-Augmented Generation (RAG): 2025 Definitive Guide, 访问时间为 六月 3, 2025, https://www.chitika.com/retrieval-augmented-generation-rag-the-definitive-guide-2025/
  9. What is Retrieval Augmented Generation(RAG) in 2025? - Glean, 访问时间为 六月 3, 2025, https://www.glean.com/blog/rag-retrieval-augmented-generation
  10. MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2412.01572v4
  11. MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented ..., 访问时间为 六月 3, 2025, https://www.aimodels.fyi/papers/arxiv/mba-rag-bandit-approach-adaptive-retrieval-augmented
  12. [Revue de papier] MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity - Moonlight, 访问时间为 六月 3, 2025, https://www.themoonlight.io/fr/review/mba-rag-a-bandit-approach-for-adaptive-retrieval-augmented-generation-through-question-complexity
  13. MacRAG: Compress, Slice, and Scale-up for Multi-scale Adaptive Context RAG - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.06569v2
  14. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2412.01572
  15. The 2025 Guide to Retrieval-Augmented Generation (RAG) - Eden AI, 访问时间为 六月 3, 2025, https://www.edenai.co/post/the-2025-guide-to-retrieval-augmented-generation-rag
  16. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2502.16586.pdf
  17. HalluSearch at SemEval-2025 Task 3: A Search-Enhanced RAG Pipeline for Hallucination Detection - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2504.10168
  18. [2506.01954] DRAG: Distilling RAG for SLMs from LLMs to Transfer Knowledge and Mitigate Hallucination via Evidence and Graph-based Distillation - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2506.01954
  19. Seven Failure Points When Engineering a Retrieval Augmented Generation System - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2401.05856
  20. A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2405.06211
  21. 访问时间为 一月 1, 1970, https://browse.arxiv.org/abs/2506.01954
  22. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2506.01954
  23. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2504.15629
  24. What is Retrieval-Augmented Generation (RAG) – The Future of AI-Powered Decision-Making | Article by AryaXAI, 访问时间为 六月 3, 2025, https://www.aryaxai.com/article/what-is-retrieval-augmented-generation-rag-the-future-of-ai-powered-decision-making-by-aryaxai
  25. Multiple Abstraction Level Retrieve Augment Generation, 访问时间为 六月 3, 2025, https://arxiv.org/html/2501.16952
  26. Long Context RAG Performance of LLMs | Databricks Blog, 访问时间为 六月 3, 2025, https://www.databricks.com/blog/long-context-rag-performance-llms
  27. RAG vs. Long-context LLMs | SuperAnnotate, 访问时间为 六月 3, 2025, https://www.superannotate.com/blog/rag-vs-long-context-llms
  28. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2502.11444
  29. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2501.16952
  30. arXiv:2502.20969v1 [cs.DC] 28 Feb 2025, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2502.20969
  31. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2502.20969
  32. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/html/2504.13079
  33. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2504.13079
  34. arXiv:2505.13506v1 [cs.CL] 16 May 2025, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2505.13506
  35. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2505.13506
  36. Chunking strategies for RAG tutorial using Granite | IBM, 访问时间为 六月 3, 2025, https://www.ibm.com/think/tutorials/chunking-strategies-for-rag-with-langchain-watsonx-ai
  37. arXiv:2501.16952v1 [cs.CL] 28 Jan 2025, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2501.16952
  38. Advanced chunking for RAG · docling-project docling · Discussion ..., 访问时间为 六月 3, 2025, https://github.com/docling-project/docling/discussions/191
  39. 访问时间为 一月 1, 1970, https://browse.arxiv.org/abs/2504.14891
  40. Optimization of embeddings storage for RAG systems using quantization and dimensionality reduction techniques. - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.00105v1
  41. 访问时间为 一月 1, 1970, https://browse.arxiv.org/abs/2503.10677
  42. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2503.10677
  43. Complete Guide to Building a Robust RAG Pipeline 2025 - DhiWise, 访问时间为 六月 3, 2025, https://www.dhiwise.com/post/build-rag-pipeline-guide
  44. Common retrieval augmented generation (RAG) techniques ..., 访问时间为 六月 3, 2025, https://www.microsoft.com/en-us/microsoft-cloud/blog/2025/02/04/common-retrieval-augmented-generation-rag-techniques-explained/
  45. Hybrid search - Pinecone Docs, 访问时间为 六月 3, 2025, https://docs.pinecone.io/guides/search/hybrid-search
  46. LLM RAG: Improving the retrieval phase with Hybrid Search ..., 访问时间为 六月 3, 2025, https://careers.edicomgroup.com/techblog/llm-rag-improving-the-retrieval-phase-with-hybrid-search/
  47. TigerVector: Supporting Vector Search in Graph Databases for Advanced RAGs - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2501.11216v1
  48. arXiv:2502.06864v1 [cs.CL] 8 Feb 2025, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2502.06864
  49. Federated Retrieval-Augmented Generation: A Systematic Mapping Study - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.18906v1
  50. This paper Eliminates Re-Ranking in RAG : r/Rag - Reddit, 访问时间为 六月 3, 2025, https://www.reddit.com/r/Rag/comments/1kzkoaf/this_paper_eliminates_reranking_in_rag/
  51. Improve search and RAG quality with ranking API | AI Applications ..., 访问时间为 六月 3, 2025, https://cloud.google.com/generative-ai-app-builder/docs/ranking
  52. Replacing Re-ranking with Selection in RAG for Sensitive Domains - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.16014v1
  53. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2505.16014
  54. HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2504.02921v1
  55. [2504.02921] HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2504.02921
  56. 访问时间为 一月 1, 1970, https://browse.arxiv.org/abs/2504.02921
  57. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2504.02921
  58. MacRAG: Compress, Slice, and Scale-up for Multi-Scale Adaptive Context RAG - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.06569v1
  59. 访问时间为 一月 1, 1970, https://arxiv.org/pdf/2410.05779.pdf
  60. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2505.18906
  61. LightRAG: Simple and Fast Retrieval-Augmented Generation - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2410.05779v3
  62. LightRAG: Simple and Fast Retrieval-Augmented Generation - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2410.05779
  63. LightRAG: Graph-Enhanced Text Indexing and Dual-Level Retrieval, 访问时间为 六月 3, 2025, https://promptengineering.org/lightrag-graph-enhanced-text-indexing-and-dual-level-retrieval/
  64. LightRAG: Simple and Fast Retrieval-Augmented Generation - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2410.05779v1
  65. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2410.05779
  66. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2502.14902
  67. KG-IRAG: A Knowledge Graph-Based Iterative Retrieval-Augmented Generation Framework for Temporal Reasoning - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2503.14234v1
  68. Empowering GraphRAG with Knowledge Filtering and Integration - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2503.13804v1
  69. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2503.13804
  70. GraphRAG: Practical Guide to Supercharge RAG with Knowledge ..., 访问时间为 六月 3, 2025, https://learnopencv.com/graphrag-explained-knowledge-graphs-medical/
  71. What is Graph RAG | Ontotext Fundamentals, 访问时间为 六月 3, 2025, https://www.ontotext.com/knowledgehub/fundamentals/what-is-graph-rag/
  72. arXiv:2501.14892v2 [cs.AI] 17 Mar 2025, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2501.14892
  73. Beyond Single Pass, Looping Through Time: KG-IRAG with Iterative Knowledge Retrieval, 访问时间为 六月 3, 2025, https://arxiv.org/html/2503.14234v3
  74. 访问时间为 一月 1, 1970, https://arxiv.org/pdf/2503.13804.pdf
  75. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2501.14892
  76. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2410.19572?
  77. Advanced RAG Techniques - Pinecone, 访问时间为 六月 3, 2025, https://www.pinecone.io/learn/advanced-rag-techniques/
  78. Self-RAG: AI That Knows When to Double-Check - Analytics Vidhya, 访问时间为 六月 3, 2025, https://www.analyticsvidhya.com/blog/2025/01/self-rag/
  79. Self-RAG: Learning to Retrieve, Generate and Critique through Self ..., 访问时间为 六月 3, 2025, https://selfrag.github.io/
  80. Corrective RAG (CRAG) Implementation With LangGraph | DataCamp, 访问时间为 六月 3, 2025, https://www.datacamp.com/tutorial/corrective-rag-crag
  81. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.17503v1
  82. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2505.02811
  83. [2504.01018] Self-Routing RAG: Binding Selective Retrieval with Knowledge Verbalization, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2504.01018
  84. Self-Routing RAG: Binding Selective Retrieval with Knowledge Verbalization, 访问时间为 六月 3, 2025, https://www.researchgate.net/publication/390404551_Self-Routing_RAG_Binding_Selective_Retrieval_with_Knowledge_Verbalization
  85. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2504.01018
  86. 访问时间为 一月 1, 1970, https://browse.arxiv.org/abs/2504.01018
  87. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2505.08445
  88. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2503.09516
  89. Key LLM Trends 2025: Transforming Federal Agencies & Beyond, 访问时间为 六月 3, 2025, https://techsur.solutions/key-llm-trends-for-2025/
  90. LLM-Independent Adaptive RAG: Let the Question Speak for Itself - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.04253v1
  91. 8 Retrieval Augmented Generation (RAG) Architectures You Should ..., 访问时间为 六月 3, 2025, https://humanloop.com/blog/rag-architectures#:~:text=Adaptive%20RAG%20is%20a%20dynamic,its%20approach%20in%20real%2Dtime.
  92. How Adaptive RAG Makes Generative AI More Reliable for Defense ..., 访问时间为 六月 3, 2025, https://www.gdit.com/perspectives/latest/how-adaptive-rag-makes-generative-ai-more-reliable-for-defense-missions/
  93. arXiv:2412.01572v4 [cs.AI] 1 Jan 2025, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2412.01572?
  94. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2505.12731
  95. Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.12731v1
  96. [Literature Review] Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps - Moonlight | AI Colleague for Research Papers, 访问时间为 六月 3, 2025, https://www.themoonlight.io/en/review/accelerating-adaptive-retrieval-augmented-generation-via-instruction-driven-representation-reduction-of-retrieval-overlaps
  97. Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2501.09136v2
  98. Complete Guide to LLM Agents (2025) - Botpress, 访问时间为 六月 3, 2025, https://botpress.com/blog/llm-agents
  99. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2503.21460
  100. How to Build an LLM Agent With AutoGen: Step-by-Step Guide - Neptune.ai, 访问时间为 六月 3, 2025, https://neptune.ai/blog/building-llm-agents-with-autogen
  101. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/html/2501.09136v1
  102. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2505.15872
  103. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2505.14069
  104. [2503.21460] Large Language Model Agent: A Survey on Methodology, Applications and Challenges - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2503.21460
  105. KnowTrace: Bootstrapping Iterative Retrieval-Augmented Generation with Structured Knowledge Tracing - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.20245
  106. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2505.20245
  107. arXiv:2504.04915v1 [cs.CL] 7 Apr 2025, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2504.04915
  108. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2504.04915
  109. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2505.11995
  110. How to Train and Fine Tune a Multimodal Language Model [+ Use ..., 访问时间为 六月 3, 2025, https://hatchworks.com/blog/gen-ai/train-and-fine-tune-multimodal-model/
  111. [2503.14504] Aligning Multimodal LLM with Human Preference: A Survey - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2503.14504
  112. Multimodal AI: A Guide to Open-Source Vision Language Models, 访问时间为 六月 3, 2025, https://www.bentoml.com/blog/multimodal-ai-a-guide-to-open-source-vision-language-models
  113. [2502.16586] Multimodal Large Language Models for Text-rich Image Understanding: A Comprehensive Review - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2502.16586
  114. [2504.16134] Multimodal Large Language Models for Enhanced Traffic Safety: A Comprehensive Review and Future Trends - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2504.16134
  115. MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework, 访问时间为 六月 3, 2025, https://arxiv.org/html/2504.10074v1
  116. Multi-RAG: A Multimodal Retrieval-Augmented Generation System for Adaptive Video Understanding - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.23990v1
  117. Build an AI-powered multimodal RAG system with Docling and ... - IBM, 访问时间为 六月 3, 2025, https://www.ibm.com/think/tutorials/build-multimodal-rag-langchain-with-docling-granite
  118. The future of Multimodal RAG: Transforming AI capabilities ..., 访问时间为 六月 3, 2025, https://superlinear.eu/insights/articles/the-future-of-multimodal-rag-systems-transforming-ai-capabilities
  119. Tracking Advances in Multimodal AI for Time Series Analysis - National Security Data and Policy Institute, 访问时间为 六月 3, 2025, https://nationalsecurity.virginia.edu/sites/nationalsecurity/files/2025/00012_%2820250506%29_NSDPI_Tracking%20Advances%20in%20Multimodal%20AI%20for%20Time%20Series%20Analysis.pdf
  120. Beyond Text-to-Text: An Overview of Multimodal and Generative Artificial Intelligence for Education Using Topic Modeling - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2409.16376v2
  121. [2501.18648] Multimodal Large Language Models for Image, Text, and Speech Data Augmentation: A Survey - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2501.18648
  122. [2504.08748] A Survey of Multimodal Retrieval-Augmented Generation - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2504.08748
  123. Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook, 访问时间为 六月 3, 2025, https://arxiv.org/html/2503.18016v1
  124. Utilize the Flow Before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning | Proceedings of the AAAI Conference on Artificial Intelligence, 访问时间为 六月 3, 2025, https://ojs.aaai.org/index.php/AAAI/article/view/34812
  125. Best LLMs for Writing in 2025 based on Leaderboard & Samples ..., 访问时间为 六月 3, 2025, https://intellectualead.com/best-llm-writing/
  126. Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2410.07176v2
  127. aclanthology.org, 访问时间为 六月 3, 2025, https://aclanthology.org/2024.emnlp-main.486.pdf
  128. arXiv:2502.19779v2 [cs.CL] 22 May 2025, 访问时间为 六月 3, 2025, https://www.arxiv.org/pdf/2502.19779v2
  129. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2502.19779
  130. Self-adaptive LLMs - "Transformer"² - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2501.06252v2
  131. Transformer-Squared:停止微调LLMs - 果冻人工智能- 博客园, 访问时间为 六月 3, 2025, https://www.cnblogs.com/jellyai/p/18714924
  132. Fine-tune large language models with reinforcement learning from ..., 访问时间为 六月 3, 2025, https://aws.amazon.com/blogs/machine-learning/fine-tune-large-language-models-with-reinforcement-learning-from-human-or-ai-feedback/
  133. Less is More: Improving LLM Alignment via Preference Data Selection - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2502.14560v2
  134. Improving LLM Safety Alignment with Dual-Objective Optimization - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2503.03710
  135. How to align open LLMs in 2025 with DPO & and synthetic data - Philschmid, 访问时间为 六月 3, 2025, https://www.philschmid.de/rl-with-llms-in-2025-dpo
  136. 访问时间为 一月 1, 1970, http://arxiv.org/pdf/2502.14560.pdf
  137. Less is More: Improving LLM Alignment via Preference Data Selection - arXiv, 访问时间为 六月 3, 2025, http://arxiv.org/pdf/2502.14560
  138. [2502.14560] Less is More: Improving LLM Alignment via Preference Data Selection - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2502.14560
  139. Reinforcement Fine-Tuning LLMs with GRPO - DeepLearning.AI, 访问时间为 六月 3, 2025, https://www.deeplearning.ai/short-courses/reinforcement-fine-tuning-llms-grpo/
  140. Theory Behind GRPO - AI Engineering Academy, 访问时间为 六月 3, 2025, https://aiengineering.academy/LLM/TheoryBehindFinetuning/GRPO/
  141. Training Large Language Models: From TRPO to GRPO - Towards Data Science, 访问时间为 六月 3, 2025, https://towardsdatascience.com/training-large-language-models-from-trpo-to-grpo/
  142. [2505.22453] Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2505.22453
  143. SQL-R1: A Reinforcement Learning-based NL2SQL Model that Outperforms Larger Systems in Complex Queries with Transparent and Accurate SQL Generation : r/machinelearningnews - Reddit, 访问时间为 六月 3, 2025, https://www.reddit.com/r/machinelearningnews/comments/1k01zcf/sqlr1_a_reinforcement_learningbased_nl2sql_model/
  144. arXiv:2501.13264v2 [cs.CL] 18 Feb 2025, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2501.13264
  145. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2501.13264
  146. How to fine-tune open LLMs in 2025 with Hugging Face - Philschmid, 访问时间为 六月 3, 2025, https://www.philschmid.de/fine-tune-llms-in-2025
  147. deep-learning-pytorch-huggingface/training/fine-tune-llms-in-2024-with-trl.ipynb at main, 访问时间为 六月 3, 2025, https://github.com/philschmid/deep-learning-pytorch-huggingface/blob/main/training/fine-tune-llms-in-2024-with-trl.ipynb
  148. The Best Instruction-Tuning Data are Those That Fit - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2502.04194v2
  149. KaFT: Knowledge-aware Fine-tuning for Boosting LLMs' Domain-specific Question-Answering Performance - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.15480v1
  150. [2505.15480] KaFT: Knowledge-aware Fine-tuning for Boosting LLMs' Domain-specific Question-Answering Performance - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2505.15480
  151. DRAG: Distilling RAG for SLMs from LLMs to Transfer Knowledge and Mitigate Hallucination via Evidence and Graph-based Distillation - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2506.01954v1
  152. Evaluation Metrics for Retrieval-Augmented Generation (RAG) Systems | GeeksforGeeks, 访问时间为 六月 3, 2025, https://www.geeksforgeeks.org/evaluation-metrics-for-retrieval-augmented-generation-rag-systems/
  153. Evaluation of Retrieval-Augmented Generation: A Survey - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2405.07437v2
  154. RAG Evaluation Metrics: Best Practices for Evaluating RAG Systems - Patronus AI, 访问时间为 六月 3, 2025, https://www.patronus.ai/llm-testing/rag-evaluation-metrics
  155. Evaluating RAG pipelines - Promptfoo, 访问时间为 六月 3, 2025, https://www.promptfoo.dev/docs/guides/evaluate-rag/
  156. Context Recall - Ragas, 访问时间为 六月 3, 2025, https://docs.ragas.io/en/latest/concepts/metrics/available_metrics/context_recall/
  157. YHPeter/Awesome-RAG-Evaluation: The official repository for the paper - GitHub, 访问时间为 六月 3, 2025, https://github.com/YHPeter/Awesome-RAG-Evaluation
  158. stanford-futuredata/ARES: Automated Evaluation of RAG ... - GitHub, 访问时间为 六月 3, 2025, https://github.com/stanford-futuredata/ARES
  159. ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems, 访问时间为 六月 3, 2025, https://arxiv.org/html/2311.09476v2
  160. (PDF) RAGBench: Explainable Benchmark for Retrieval-Augmented ..., 访问时间为 六月 3, 2025, https://www.researchgate.net/publication/382301929_RAGBench_Explainable_Benchmark_for_Retrieval-Augmented_Generation_Systems
  161. 7 RAG benchmarks - Evidently AI, 访问时间为 六月 3, 2025, https://www.evidentlyai.com/blog/rag-benchmarks
  162. [Literature Review] CRUD-RAG: A Comprehensive Chinese ..., 访问时间为 六月 3, 2025, https://www.themoonlight.io/en/review/crud-rag-a-comprehensive-chinese-benchmark-for-retrieval-augmented-generation-of-large-language-models
  163. IAAR-Shanghai/CRUD_RAG: CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models - GitHub, 访问时间为 六月 3, 2025, https://github.com/IAAR-Shanghai/CRUD_RAG
  164. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2504.17137
  165. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2502.17163
  166. arXiv:2502.17163v1 [cs.CL] 24 Feb 2025, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2502.17163?
  167. ProBench: Benchmarking Large Language Models in Competitive Programming | Request PDF - ResearchGate, 访问时间为 六月 3, 2025, https://www.researchgate.net/publication/389510831_ProBench_Benchmarking_Large_Language_Models_in_Competitive_Programming
  168. ProBench: Benchmarking Large Language Models in Competitive Programming - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2502.20868v1
  169. ProBench: Benchmarking Large Language Models in Competitive Programming - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2502.20868
  170. SimCopilot: Evaluating Large Language Models for Copilot-Style Code Generation - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.21514v1
  171. ProBench: Benchmarking Large Language Models in Competitive Programming, 访问时间为 六月 3, 2025, https://paperswithcode.com/paper/probench-benchmarking-large-language-models
  172. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2504.10168
  173. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2504.13587
  174. Benchmarks - Ragie, 访问时间为 六月 3, 2025, https://www.ragie.ai/benchmarks
  175. Large Language Models: What You Need to Know in 2025 | HatchWorks AI, 访问时间为 六月 3, 2025, https://hatchworks.com/blog/gen-ai/large-language-models-guide/
  176. Understanding Large Language Models (LLMs) 2025: A ... - Altois, 访问时间为 六月 3, 2025, https://altois.com/blog/understanding-large-language-models-llms-2025-a-comprehensive-guide/
  177. Top LLM Trends 2025: What's the Future of LLMs - Turing, 访问时间为 六月 3, 2025, https://www.turing.com/resources/top-llm-trends
  178. The Future of Large Language Models in 2025 - Research AIMultiple, 访问时间为 六月 3, 2025, https://research.aimultiple.com/future-of-large-language-models/
  179. Top 9 Large Language Models as of May 2025 | Shakudo, 访问时间为 六月 3, 2025, https://www.shakudo.io/blog/top-9-large-language-models
  180. Large Language Models 2024 Year in Review and 2025 Trends | Psychology Today, 访问时间为 六月 3, 2025, https://www.psychologytoday.com/us/blog/the-future-brain/202501/large-language-models-2024-year-in-review-and-2025-trends
  181. SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning, 访问时间为 六月 3, 2025, https://arxiv.org/html/2504.08600v1
  182. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/html/2408.05109v4
  183. A Survey of NL2SQL with Large Language Models: Where are we, and where are we going? - ResearchGate, 访问时间为 六月 3, 2025, https://www.researchgate.net/publication/383037241_A_Survey_of_NL2SQL_with_Large_Language_Models_Where_are_we_and_where_are_we_going
  184. [Papierüberprüfung] A Survey of NL2SQL with Large Language Models: Where are we, and where are we going?, 访问时间为 六月 3, 2025, https://www.themoonlight.io/de/review/a-survey-of-nl2sql-with-large-language-models-where-are-we-and-where-are-we-going
  185. [Revue de papier] A Survey of NL2SQL with Large Language Models: Where are we, and where are we going?, 访问时间为 六月 3, 2025, https://www.themoonlight.io/fr/review/a-survey-of-nl2sql-with-large-language-models-where-are-we-and-where-are-we-going
  186. How to Use LLM with RAG to Chat with Databases | Complete Guide ..., 访问时间为 六月 3, 2025, https://www.webasha.com/blog/how-to-use-llm-with-rag-to-chat-with-databases-complete-guide-to-sql-query-generation-with-natural-language-using-large-language-models
  187. How to Chat with SQL Database Using LLM - Codoid, 访问时间为 六月 3, 2025, https://codoid.com/ai/mastering-llm-and-sql-expert-tips-for-database-chat/
  188. Training Natural Language to SQL Reasoning Model By Reinforcement Learning - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2504.08600v2
  189. [2504.08600] SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2504.08600
  190. Daily Papers - Hugging Face, 访问时间为 六月 3, 2025, https://huggingface.co/papers?q=SQL-R1
  191. Smaller Models, Smarter SQL: Arctic-Text2SQL-R1 Tops BIRD and Wins Broadly, 访问时间为 六月 3, 2025, https://www.snowflake.com/en/engineering-blog/arctic-text2sql-r1-sql-generation-benchmark/
  192. From Natural Language to SQL: Review of LLM-based Text-to-SQL Systems - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2410.01066v2
  193. From Natural Language to SQL: Review of LLM-based Text-to-SQL Systems | Request PDF - ResearchGate, 访问时间为 六月 3, 2025, https://www.researchgate.net/publication/384599019_From_Natural_Language_to_SQL_Review_of_LLM-based_Text-to-SQL_Systems
  194. 11 Best Applications of Large Language Models (LLMs) [2025] - V7 Labs, 访问时间为 六月 3, 2025, https://www.v7labs.com/blog/best-llm-applications
  195. Trends 2025: AI in Contract Analysis - Legartis, 访问时间为 六月 3, 2025, https://www.legartis.ai/blog/trends-ai-contract-analysis
  196. How AI is transforming the legal profession (2025) | Legal Blog, 访问时间为 六月 3, 2025, https://legal.thomsonreuters.com/blog/how-ai-is-transforming-the-legal-profession/
  197. 9 Trends Shaping AI Automation in Legal Tech for 2025: Transforming How Lawyers Work, 访问时间为 六月 3, 2025, https://erbis.com/blog/9-trends-shaping-ai-automation-in-legal-tech-for-2025/
  198. Building a Retrieval-Augmented Generation (RAG) System with ..., 访问时间为 六月 3, 2025, https://www.marktechpost.com/2025/01/27/building-a-retrieval-augmented-generation-rag-system-with-deepseek-r1-a-step-by-step-guide/
  199. RAG Using DeepSeek-R1: A Comprehensive Guide - BytePlus, 访问时间为 六月 3, 2025, https://www.byteplus.com/en/topic/406464
  200. DeepSeek-R1 RAG Chatbot With Chroma, Ollama, and Gradio - DataCamp, 访问时间为 六月 3, 2025, https://www.datacamp.com/tutorial/deepseek-r1-rag
  201. Prompt Engineering Guide | IBM, 访问时间为 六月 3, 2025, https://www.ibm.com/think/topics/prompt-engineering-guide
  202. Prompt Engineering Techniques | IBM, 访问时间为 六月 3, 2025, https://www.ibm.com/think/topics/prompt-engineering-techniques
  203. 10 Best Prompting Techniques for LLMs in 2025 - Skim AI, 访问时间为 六月 3, 2025, https://skimai.com/10-best-prompting-techniques-for-llms-in-2025/
  204. What is Prompt Engineering? A Detailed Guide For 2025 - DataCamp, 访问时间为 六月 3, 2025, https://www.datacamp.com/blog/what-is-prompt-engineering-the-future-of-ai-communication
  205. Novel Universal Bypass for All Major LLMs - HiddenLayer, 访问时间为 六月 3, 2025, https://hiddenlayer.com/innovation-hub/novel-universal-bypass-for-all-major-llms/
  206. RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2504.18041v1
  207. How Human Oversight Solves RAG's Biggest Challenges for Business Success, 访问时间为 六月 3, 2025, https://labelstud.io/blog/how-human-oversight-solves-rag-s-biggest-challenges-for-business-success/
  208. A Comprehensive Review of Retrieval-Augmented Generation (RAG): Key Challenges and Future Directions - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2410.12837?
  209. Information Retrieval - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/list/cs.IR/recent
  210. Computation and Language Jun 2025 - arXiv, 访问时间为 六月 3, 2025, https://www.arxiv.org/list/cs.CL/2025-06?skip=225&show=25
  211. 访问时间为 一月 1, 1970, https://arxiv.org/html/2506.00054v1
  212. 访问时间为 一月 1, 1970, https://browse.arxiv.org/abs/2506.00054

相关文章:

  • 数据结构:递归的种类(Types of Recursion)
  • 互联网大厂智能体平台体验笔记字节扣子罗盘、阿里云百炼、百度千帆 、腾讯元器、TI-ONE平台、云智能体开发平台
  • MQTTX连接阿里云的物联网配置
  • 问题七、isaacsim中添加IMU传感器
  • Ubuntu24.04.2 + kubectl1.33.1 + containerdv1.7.27 + calicov3.30.0
  • Vert.x学习笔记-Verticle原理解析
  • Celery 核心概念详解及示例
  • docker 中 什么是「卷」?(Volume)
  • 深度解析 Qt 最顶层类 QObject:继承关系与内存生命周期管理
  • Java垃圾回收机制深度解析:从理论到实践的全方位指南
  • React进阶:状态管理选择题
  • Java程序员视角- NIO 到 Epoll:深度解析 IO 多路复用原理及 Select/Poll/Epoll 对
  • 【Qt】构建目录设置
  • GLIDE论文阅读笔记与DDPM(Diffusion model)的原理推导
  • 论文阅读:CLIP:Learning Transferable Visual Models From Natural Language Supervision
  • 【图像处理入门】4. 图像增强技术——对比度与亮度的魔法调节
  • MongoDB账号密码笔记
  • MongoDB-6.0.24 主从复制搭建和扩容缩容详解
  • pycharm如何查看git历史版本变更信息
  • 如何爬取google应用商店的应用分类呢?
  • 网站 开发 外包/南城网站优化公司
  • html5网站演示/怎样创建网站平台
  • 网站建设flash/北京网络营销招聘
  • 做教学的视频网站有哪些问题/网站开发的公司
  • 宠物网站设计说明书/网站软件下载app
  • 室内装修风格/seo网站推广方式