当前位置：首页 > news >正文

R2U：通过过程监督优化文档改写，弥合 RAG 系统中检索相关性与生成效用差距

news 2025/9/28 15:41:19

摘要：检索增强生成（RAG）系统常被“检索相关性”与“生成可用性”之间的鸿沟拖累：召回的文档看似主题相关，却缺少支撑推理的关键内容。现有“桥接”模块试图改写检索文本以更好生成，但我们发现它们无法捕捉文档的真实效用。本文提出 R2U，核心思路是直接以“提升正确答案生成概率”为目标进行过程监督优化。由于直接标注成本高昂，我们还设计了可扩展的蒸馏流程，把大模型的监督信号压缩给更小的改写模型，帮助其泛化。在多个开放域问答基准上，R2U 一致超越强桥接基线。

论文标题: "Relevance to Utility: Process-Supervised Rewrite for RAG"
作者: "Jaeyoung Kim, Jongho Kim"
发表年份: 2025
原文链接: "https://arxiv.org/pdf/2509.15577"
关键词: ["检索增强生成", "知识蒸馏", "偏好优化", "小模型", "真实效用"]

核心要点：R2U（Retrieve-to-Utilize）通过引入基于真实效用（True Utility）的桥梁文档分布生成和偏好优化技术，在保持3B小模型规模的同时，实现了比传统RAG方法平均58.9%的F1分数提升，彻底改变了检索增强生成中文档重写的范式。

欢迎大家关注我的公众号：大模型论文研习社
往期回顾：大模型也会 “脑补” 了！Mirage 框架解锁多模态推理新范式，无需生成像素图性能还暴涨

研究背景：RAG系统的"最后一公里"难题

在当今的人工智能领域，检索增强生成（Retrieval-Augmented Generation，RAG）技术已经成为解决知识密集型任务的主流方案。它的基本思路很简单：先检索相关文档，再让语言模型基于这些文档生成回答。然而，这个看似简单的流程中却隐藏着一个关键瓶颈——检索到的文档与最终生成之间存在着一道鸿沟。

想象一下，当你在写一篇学术论文时，你找到了10篇相关文献（就像RAG检索到的top-10文档），但这些文献可能包含冗余信息、过时内容，甚至相互矛盾的观点。直接将这些原始文献交给语言模型，就好比让一个新手厨师用一堆未经处理的食材直接做菜——结果往往不尽如人意。

现有方法主要面临两大痛点：

文档-查询不匹配：检索到的文档可能包含回答问题所需的信息，但表达方式与查询意图不一致
模型能力浪费：即使是最先进的重写器基线（如BGE-Reranker-Large），在处理抽象性回答时也会出现性能下降（从71.6降至71.0）
规模与性能的权衡：大型语言模型虽然性能优越，但部署成本高昂；小型模型虽然轻便，但在复杂推理任务中表现不佳

图1：不同桥梁模型在抽取式与抽象式回答类型上的准确率差距

如图1所示，传统的Naive RAG方法在处理抽象性回答时准确率仅为71.6，而使用BGE-Reranker甚至会导致性能下降（71.0）。这就是R2U要解决的核心问题——如何让小模型也能高效利用检索到的文档，架起从检索到生成的"最后一公里"桥梁。

方法总览：R2U的双引擎驱动架构

R2U提出了一个革命性的两阶段框架，我将其比喻为"智能厨师"系统：第一阶段是"食材预处理"（生成桥梁文档分布），第二阶段是"烹饪技巧学习"（偏好优化）。

R2U框架的三大创新点

真实效用引导的文档重写：不同于传统方法仅关注文档相关性，R2U引入"真实效用"概念，即文档对最终回答的实际贡献度
小模型蒸馏大模型能力：通过知识蒸馏（Knowledge Distillation）技术，将70B大模型的文档重写能力压缩到3B小模型中
偏好优化的反馈机制：基于F1分数设计偏好优化策略，让模型学会区分"好"与"更好"的文档重写方式

图2：R2U的整体流程图

如图2所示，R2U的工作流程分为三个关键步骤：

生成桥梁文档分布：利用LLM对每个检索到的文档进行推理和重写，生成多样化的文档变体
训练学生模型：通过蒸馏损失函数L_SLM，将大模型的重写能力转移到小模型
偏好优化：基于F1分数设计三重过滤机制，构建偏好数据集以进一步优化模型

关键结论：小模型，大突破

R2U的贡献可以概括为以下三点：

理论创新：首次提出"真实效用"概念来量化文档对回答的实际贡献，为文档重写提供了可解释的评估标准
方法突破：开发了基于分布生成的文档重写技术，使小模型能够模拟大模型的推理过程
性能跃升：在四个主流数据集（AmbigQA、HotpotQA、2Wiki、MuSiQue）上实现平均44.7%的EM分数和58.9%的F1分数，超越所有现有基线方法