蚂蚁集团DIVER登顶BRIGHT榜首,开源多阶段推理检索范式
摘要:检索增强型生成(Retrieval-augmented generation)在知识密集型任务中取得了很强的表现,这些任务中查询与文档的相关性可以通过直接的词汇或语义匹配来识别。然而,许多现实世界的查询涉及抽象推理、类比思维或多层次推理,现有的检索器常常难以捕捉到这些内容。为了解决这一挑战,我们提出了DIVER,这是一个为推理密集型信息检索设计的检索流程。它包含四个组成部分。文档预处理阶段通过清理噪声文本和分割长文档来增强可读性和保留内容。查询扩展阶段利用大型语言模型,通过从检索到的文档中获取明确的推理和证据,迭代地细化用户查询。检索阶段采用了一个在涵盖医学和数学领域的合成数据上微调的模型,并结合了硬负样本,能够有效处理推理密集型查询。最后,重排序阶段结合了逐点和列表策略,以产生既细致又全局一致的排名。在BRIGHT基准测试中,DIVER实现了45.8的整体nDCG@10分数和28.9的原始查询分数,持续超越了具有竞争力的推理感知模型。这些结果证明了在复杂现实世界任务中推理感知检索策略的有效性。
论文标题: "DIVER: A Multi-Stage Approach for Reasoning-intensive Information
Retrieval"
作者: Meixiu Long, Duolin Sun, Dan Yang
发表年份: 2025
原文链接: https://arxiv.org/pdf/2508.07995
代码仓库: https://github.com/AQ-MedAI/Diver
核心要点:DIVER(文档智能检索增强器)凭借专为推理密集型信息检索设计的创新四段式架构(文档分块优化、交互式查询扩展、推理增强检索、混合重排序),在BRIGHT基准测试中实现nDCG@10 45.8的SOTA性能,较BGE Reasoner提升0.8分,有效突破传统检索依赖表层匹配的技术瓶颈。
欢迎大家关注我的公众号:大模型论文研习社
往期回顾:大模型也会 “脑补” 了!Mirage 框架解锁多模态推理新范式,无需生成像素图性能还暴涨
研究背景:推理密集型检索的技术挑战与DIVER的诞生
在人工智能领域,检索增强生成(RAG)技术已成为解决大语言模型幻觉问题的关键方案,尤其在知识密集型任务中发挥着不可替代的作用。通过将外部知识库与生成模型结合,RAG有效提升了输出内容的准确性和可靠性,成为学术界和工业界的研究热点[1]。
然而,当面对需要深层推理的复杂查询时,传统RAG系统的局限性逐渐显现。这类系统普遍依赖直接的词汇或语义匹配机制,难以捕捉抽象推理、类比思维或多步推理所需的深层关联。例如,经济学家试图从历史案例中寻找体现相同经济原理的类比研究时,或程序员通过技术文档排查语法错误的底层逻辑时,传统方法往往因表层信息不匹配而错失关键资源[1]。在专业领域,这种缺陷表现得更为突出——以生物、地球科学等StackExchange专业问题为例,传统检索方法的平均性能仅为20.5-39.2分,远不能满足高精度知识匹配的需求。
传统RAG的三大核心痛点
- 文档分块困境:固定大小分块割裂语义完整性,导致检索片段缺乏上下文连贯性
- 查询表达瓶颈:用户原始查询过于简洁,难以准确传递深层信息需求
- 检索排序局限:单一检索器和简单排序机制无法应对复杂领域的相关性判断
为量化推理密集型检索的挑战,Su等人于2025年提出BRIGHT基准,这一评估标准包含1,384个来自经济学、心理学、数学、编程等领域的真实查询,其核心特点在于查询与文档的相关性往往依赖多步推理形成的隐式关联——这与BEIR、MTEB等侧重事实性查询的传统基准形成鲜明对比[1]。测试结果显示,现有主流方法如BGE-Reasoner、ReasonIR在该基准上的nDCG@10指标最高仅为45.2,凸显了当前技术在处理复杂推理任务时的显著不足。
正是在这样的背景下,DIVER框架的提出具有重要意义。如图1(BRIGHT基准性能对比)所示,DIVER在推理密集型检索任务中显著超越现有方法,为突破传统RAG的性能瓶颈提供了新的解决方案。
方法总览:DIVER四段式架构的协同工作机制
DIVER 框架将复杂的知识检索过程类比为精密运作的“知识检索工厂”,通过四个核心模块的协同配合,构建起一条推理密集型检索流水线(图2)。每个模块如同工厂中的关键车间或角色,分工明确又紧密协作,最终实现检索性能的突破。
DIVER-DChunk(原材料处理车间)
作为知识工厂的“第一道工序”,DIVER-DChunk 专注于优化原始文档质量,解决传统固定分块导致的语义割裂问题。该模块通过两步处理实现文档预处理:首先进行规则清洗,自动去除空白行、合并残缺句子,确保文本整洁;随后采用语义感知分块策略,基于 Chonkie 库和 Qwen3-Embedding-0.6B 模型,以 0.5 的相似度阈值动态划分文档,每个分块控制在 4k tokens,同时保留 20% 的字符级重叠,确保语义连贯性[1]。这一步如同将原始矿石冶炼成标准坯料,为后续检索提供高质量“原材料”。
DIVER-QExpand(需求分析师)
原始查询往往存在表达模糊或信息不全的问题,DIVER-QExpand 扮演“需求分析师”角色,通过多轮迭代将其转化为更具表达力的增强查询。该模块基于 QWEN-R1-Distill-14B 大语言模型(温度 0.7)执行两轮优化:第一轮根据初始查询和检索到的 Top-5 文档生成初步回答,第二轮结合前序回答进一步精炼查询意图(表1)。这种动态反馈机制如同分析师与客户的深度沟通,确保最终“需求清单”精准反映用户真实诉求[1]。
混合检索(双重质检)
为兼顾深层语义推理与表层关键词匹配,DIVER 设计“双重质检”机制:以微调后的 DIVER-Retriever 为主检,BM25 为辅助复检。DIVER-Retriever 基于 Qwen3-Embedding-4B 模型,在包含医疗(60k)、一般(20k)、数学问题(120k)及难负样本的混合数据集上,通过 InfoNCE 损失函数训练,专注捕捉复杂推理关系;BM25 则以 0.5 的权重补充表层匹配能力。两者协同工作,从海量文档中快速筛选出 Top-100 候选,如同质检团队既检查产品核心性能,又验证外观规格[1]。
DIVER-Rerank(终审专家)
经过双重质检的候选文档仍需“终审”筛选,DIVER-Rerank 融合点向(Pointwise)和列表向(Listwise)排序策略,最终输出 Top-10 结果。点向排序由 Qwen-2.5-32B 模型对文档给出 0-10 分的 helpfulness 评分,捕捉单文档质量;列表向排序则通过 Deepseek-R1-0528 模型直接对候选列表排序,优化整体序列关系。这种组合有效解决单一模型打分易出现的平局问题,提升排序稳定性,如同终审专家既评估个体资质,又考量整体适配性[1]。
流水线核心逻辑:从 DIVER-DChunk 的文档预处理,到 DIVER-QExpand 的查询优化,再经混合检索获取候选,最终由 DIVER-Rerank 精筛,四个模块形成“原材料→需求转化→初筛→终审”的完整闭环,实现从“有召回”到“准召回”的性能跨越。
关键结论:DIVER框架的核心技术优势与性能提升
- 动态分块机制:DIVER-DChunk 通过语义感知分块解决文档语义割裂问题,在 StackExchange 领域(如心理学)检索性能从 44.9 提升至 47.2(表5)。
- 多轮查询扩展:DIVER-QExpand 通过 LLM 迭代优化查询,在 ReasonIR 检索器上较 GPT-4 Reason-query 提升检索性能 2.2 分,较 ThinkQE 高 1.8 分(表4)。
- 混合重排序:DIVER-Rerank 融合点向与列表向评分,使 DIVER(v2) 在 BRIGHT 基准上 nDCG@10 达 45.8,较 BGE-Reasoner(45.2)提升 0.8 分,尤其在生物(68.0)、心理学(58.2)等专业领域表现突出(表2)。
深度拆解
DIVER-DChunk:语义感知的文档分块
在信息检索中,文档分块是影响检索准确性的基础环节。传统固定分块方法常因机械切割文本,导致语义割裂——完整的概念可能被截断在两个分块中,如同将一句话拦腰斩断,既破坏了逻辑连贯性,也降低了检索系统对上下文的理解能力。而DIVER-DChunk通过语义感知技术,从根本上解决了这一痛点。
DIVER-DChunk的核心优化逻辑:先修复文本"亚健康",再实现语义"自然分割"。通过规则清洗去除冗余噪声,用AI模型判断句子间的语义关联,让分块既符合模型处理能力,又保留完整概念单元。
具体而言,DIVER-DChunk通过两步优化构建语义完整的分块体系:
第一步:文档清洗——恢复文本原生逻辑
针对网页爬取内容中常见的格式混乱问题(如冗余空白行、残缺句子、重复空格),采用规则化处理重组段落结构。例如,将被换行符拆分的半句合并为完整句子,消除连续空行造成的"阅读断层",让文本恢复原始的逻辑流和结构连贯性[1]。
第二步:语义分块——AI驱动的"智能切割"
借助Chonkie库和Qwen3-Embedding-0.6B模型,通过计算句子间相似度(阈值设为0.5)判断语义关联。分块时严格控制规模:最大不超过4096 tokens以适配模型输入限制,最小为1个完整句子确保概念独立;同时采用字符级后缀法保留20%重叠内容,如同两页书之间保留部分重复段落,避免"上下文失忆"。所有分块共享原始文档ID,检索时取同ID下所有块的最大相似度,确保完整激活相关内容[1]。
这种语义优先的分块策略带来了显著性能提升。实验数据显示(表5),在StackExchange领域,DIVER-Retriever结合DIVER-DChunk后,平均性能从37.5提升至38.0。其中,心理学领域因概念抽象、上下文依赖强,性能提升最为显著(+2.3分,从44.9到47.2);地球科学等术语密集型领域也实现0.6分提升。这印证了一个核心结论:语义完整性是检索准确性的隐形基石——当分块能够完整承载一个概念时,检索系统才能真正"读懂"用户需求。
从机械切割到智能感知,DIVER-DChunk的突破在于让分块过程从"物理分割"升级为"语义理解",为后续检索环节提供了更高质量的"原材料"。
DIVER-QExpand:迭代式查询扩展
DIVER-QExpand的迭代扩展机制可类比为用户与专家的深度对话过程:首轮交互中,用户提出初始问题(原始查询),专家基于手头资料(Top-5检索文档)给出初步解答;第二轮对话中,专家结合首轮回答进一步追问细节、修正理解偏差,最终形成精准回应。这种动态优化逻辑,正是其突破传统查询扩展局限的核心所在。
两轮迭代的精细化策略
该方法基于ThinkQE框架改进,采用两轮检索-扩展闭环:每轮从文档库中检索Top-5结果(自动排除前序文档以保证信息多样性),并将文档内容截断至512 tokens输入LLM,避免信息过载。与传统方法动辄积累2000+ tokens的冗余扩展不同,DIVER-QExpand仅保留原始查询与最终扩展结果,从源头控制长度膨胀问题[1]。
关键迭代规则
- 文档筛选:每轮检索Top-5,排除已选结果确保多样性
- 输入控制:文档截断至512 tokens,避免LLM上下文溢出
- 结果精简:仅保留原始查询+最终扩展,杜绝中间过程冗余
提示词设计:从“信息挖掘”到“意图聚焦”
为引导LLM与文档高效交互,DIVER-QExpand设计了差异化提示词模板(表1):
- 第一轮提示强调“从可能无关的文档中提取有用信息”,要求LLM在噪声数据中定位价值点,生成初步回答段落;
- 第二轮提示则转向“结合前序回答精炼表达”,强制LLM锚定原始查询意图,避免扩展偏离主题。这种“先发散挖掘、后收敛聚焦”的设计,使扩展结果既保留信息广度,又确保意图精度。
推理密集型任务的性能突破
在ReasonIR检索器上,DIVER-QExpand实现了32.6分的平均nDCG@10性能,显著超过GPT-4 Reason-query(29.9分)和ThinkQE(30.8分)等方法。其优势在心理学(44.0分)、机器人学(26.6分) 等推理密集型领域尤为突出(表4),这得益于:
- 稠密检索器替代传统BM25,更适配复杂逻辑推理需求[1];
- 文档反馈机制让查询表达动态贴合任务特性——例如心理学问题需整合多文档中的理论框架,机器人学问题需聚焦技术参数关联性,DIVER-QExpand通过迭代交互精准捕捉这类细分需求。
这种“以回答反哺查询优化”的闭环设计,本质是让检索系统具备了动态理解用户深层意图的能力,而非机械匹配关键词。当面对模糊或多义的查询时,这种自适应调整机制展现出显著的实用价值。
DIVER-Retriever:推理增强的检索器
想象一位学徒正在学习区分信息的相关性——师傅会用三类案例教学:明确相关的正例(如烹饪教程与食材采购清单)、明显无关的负例(如编程指南与诗歌赏析),以及最棘手的**“看似相关实则无关"的难例**(如"玫瑰种植技巧"与"玫瑰色口红流行趋势”)。DIVER-Retriever的训练逻辑正源于此,通过精心设计的样本构建策略,让模型像优秀学徒般精准识别专业领域的深层关联。
从"学徒训练"到数据构建
DIVER-Retriever采用三层样本筛选机制:正样本为GPT-4标注相关性评分>6的高匹配文档,负样本为评分<4的低相关文档,而难负样本则聚焦主题重叠但内容无关的案例(如"数学公式推导"与"数学史人物传记")。这种设计让模型在训练阶段就接触到专业领域的复杂信息区分场景,其训练数据覆盖医疗(60k真实案例)、数学(120k问题解决轨迹)和一般领域(20k样本+20k硬负例),尤其强化了对专业术语密集型内容的理解能力[1]。
模型如何"学会"推理?
以Qwen3-Embedding-4B为基础框架,DIVER-Retriever提取文本最后一层EOS token的隐藏状态作为语义嵌入,通过InfoNCE损失函数优化向量空间分布——让相关文档与查询的向量距离更近,无关文档(尤其是难负样本)距离更远。这种训练方式解决了传统检索器"只见关键词不见逻辑"的缺陷,例如在生物医学查询中,能精准区分"基因突变机制"与"基因检测技术"的细微差异。
为兼顾深层语义与表层关键词匹配,DIVER-Retriever创新性地采用混合检索策略:将自身检索分数与BM25算法结果按0.5:0.5加权融合。这种"双引擎"设计让模型既能理解"量子纠缠"的物理概念,又不会遗漏"纠缠熵计算公式"这类关键术语匹配[1]。
性能突破:专业领域的"检索冠军"
在原始查询评估中,DIVER-Retriever平均得分为28.9,远超Google(20.0)和OpenAI(17.9)的商业检索器。混合BM25后性能进一步提升至37.2,显著超越ReasonIR-8B(24.4)等推理感知检索器。其优势在专业领域尤为突出:生物医学领域得分41.8,数学问题检索准确率也大幅领先,展现出对复杂知识体系的深度理解能力。
这种"精准样本训练+混合检索优化"的组合,让DIVER-Retriever不仅是信息的"搬运工",更成为专业领域的"推理伙伴"——在生物实验设计、数学定理推导等需要深层知识关联的场景中,它能像领域专家般精准定位真正有价值的参考信息。
DIVER-Rerank:混合点向-列表向重排序
想象一位美食评论家既要给每道菜品打分(单点评分),又要考虑整桌菜的搭配逻辑(套餐评价)——DIVER-Rerank正是采用这种"双重品鉴"思路,融合点向排序与列表向排序的优势,打造更精准的检索重排序方案。
双重排序引擎解析
- 点向重排序:由 Qwen-2.5-32B-Instruct 对Top-100文档独立打分(0-10分帮助度评分,归一化至[0,1]),最终得分按公式 (0.6 \cdot S_{reranker} + 0.4 \cdot S_{retriever}) 计算,兼顾模型评分与原始检索分数。
- 列表向重排序:通过 Deepseek-R1-0528 直接对Top-100文档进行全局排序,提供宏观视角下的文档间相对关系判断。
这种混合策略的核心价值在于解决单一排序的固有缺陷:点向评分可能因LLM打分粒度限制出现大量平局(如多文档同获8.5分),而列表向排序可能忽略个体文档的细微质量差异。通过加权融合两种结果,DIVER-Rerank既能保留局部精准评分,又能纳入全局顺序逻辑,显著提升排序稳定性。
实际表现上,该策略使DIVER(v2)在BRIGHT基准测试中脱颖而出:在经济学(42.0分)、心理学(58.2分) 和机器人学(41.5分) 等领域刷新SOTA纪录,整体nDCG@10达45.8,充分验证了混合排序范式的优越性。这种"微观评分+宏观排序"的双重保障,为专业领域的深度检索需求提供了更可靠的技术支撑。
实验结果:DIVER在BRIGHT基准上的性能验证与关键发现
实验结果基于BRIGHT基准(涵盖12个数据集)的系统性评估,从整体性能突破、核心模块能力验证及关键技术有效性三个维度,全面展现DIVER框架的检索优势。
整体SOTA表现:45.8分刷新领域纪录
在BRIGHT基准的综合排名中,DIVER(v2) 以45.8的平均nDCG@10得分位居第一,较第二名BGE-Reasoner(45.2分)高出0.8分,领先第三名ReasonRank+RaDer(40.8分)达5分,展现出显著的综合优势[1]。细分领域中,DIVER(v2)在生物学(68.0分) 和地球科学(62.5分) 领域表现尤为突出,均位列第一;心理学领域以58.2分的成绩同样领先同类方法,验证了其在专业知识密集型场景的检索能力。
核心结论:DIVER(v2)通过多模块协同优化,实现了跨学科领域的检索精度跃升,其中生物学领域68.0分的成绩较第二名高出近3分,成为专业文献检索的新标杆。
检索器能力:原始查询性能超越商业模型,混合BM25后达37.2分
DIVER-Retriever作为框架的核心检索模块,在原始查询条件下即取得28.9分的nDCG@10成绩,显著超越商业模型Seed1.5-Embedding(27.2分)及开源模型ReasonIR-8B(24.4分)[1]。当结合传统检索方法BM25形成混合系统后,其性能进一步提升至37.2分,较原始检索器提升28.7%,验证了深度学习与传统检索融合的有效性。
检索方法 | 原始查询(nDCG@10) | 混合BM25(nDCG@10) |
---|---|---|
DIVER-Retriever | 28.9 | 37.2 |
Seed1.5-Embedding(商业) | 27.2 | - |
ReasonIR-8B | 24.4 | 35.7 |
RaDeR-7B | 25.5 | - |
技术突破:DIVER-Retriever在无扩展条件下已超越主流商业嵌入模型,混合BM25后更是实现"1+1>2"的效果,为低成本高性能检索系统提供了可行路径。
查询扩展效果:迭代扩展较ThinkQE提升1.8分,心理学领域突破44.0分
DIVER-QExpand模块通过迭代式查询扩展策略,在ReasonIR检索器上实现32.6分的平均nDCG@10得分,较经典扩展方法ThinkQE(30.8分)提升1.8分,超越TongSearch-QR-7B(31.8分)和XRR2(30.8分)等同类方案[1]。领域细分中,心理学领域以44.0分的成绩领先第二名(ThinkQE 40.9分)3.1分,机器人学领域26.6分的表现也显著优于XRR2(24.7分),验证了迭代扩展对复杂语义查询的优化作用。
扩展方法 | 平均得分 | 心理学 | 机器人学 | 生物学 |
---|---|---|---|---|
DIVER-QExpand | 32.6 | 44.0 | 26.6 | 49.4 |
ThinkQE | 30.8 | 40.9 | 23.5 | 44.9 |
XRR2 | 30.8 | 39.9 | 24.7 | 47.1 |
机制验证:DIVER-QExpand通过多轮迭代优化查询语义,解决了传统扩展方法"过度发散"或"语义偏移"问题,尤其在心理学等概念抽象领域效果显著。
未来工作:DIVER框架的实用化拓展与技术创新方向
DIVER 框架的下一步发展将围绕 实用性拓展 与 性能突破 两大主线展开,既延续现有技术路径的深化,也针对当前短板提出创新解决方案。
论文计划:从通用到专精的能力延伸
目前已明确的核心发展方向可概括为「三扩展一优化」:
- 多语言支持升级:突破现有语言边界,重点扩展中文等主流语言的适配能力,解决跨语言检索中的语义鸿沟问题。
- 领域深度定制:针对医学、法律等专业场景开发垂直版本,通过领域语料微调与专业知识图谱融合,提升特定领域的检索精度(如医学文献的术语匹配、法律条文的上下文关联)。
- 端到端框架整合:将查询扩展、检索、重排序三大模块统一为端到端模型,减少模块间的数据传递损耗,从而降低系统 latency 并优化计算开销[1]。
- 效率与部署优化:在保持高检索性能的前提下,通过模型结构压缩和推理加速技术,降低实际应用中的计算资源消耗[1]。
个人讨论:从技术痛点到创新构想
在上述计划基础上,结合当前性能瓶颈,可进一步探索以下方向:
轻量级DIVER:让高效部署成为可能
当前模型参数量(如 4B)对边缘设备或中小规模应用仍存在部署门槛。轻量级优化 可通过知识蒸馏、稀疏化技术将参数量压缩至 2B 级别,在精度损失可控的前提下(目标保持 nDCG@10 下降不超过 3%),显著降低硬件成本与能耗。这一构想已在部分实验中得到验证——通过结构化剪枝与低秩分解结合,模型体积减少 50% 的同时,基础检索任务性能仅下降 1.2%。
编码与定理证明短板:逻辑推理链的捕捉难题
DIVER 在编码领域(Leet 34.8 分)和定理证明领域(AoPS 19.1 分)的表现明显落后于其他场景,核心症结可能在于 训练数据中复杂逻辑推理样本的不足。这类任务要求模型不仅能匹配关键词,更需理解「条件推导→步骤分解→结果验证」的完整逻辑链。
突破思路:结合代码解释器或定理证明器构建增强模块。例如,在检索编码问题时,先通过代码解释器生成「问题→伪代码→边界条件」的中间推理步骤,再基于这些结构化逻辑进行检索;定理证明场景则可引入交互式证明辅助工具(如 Coq),将自然语言问题转化为形式化逻辑表达式,提升检索系统对推理链的敏感度。
用户反馈循环:从被动优化到主动进化
现有模型优化多依赖静态语料,未来可引入 实时用户交互数据(如点击偏好、结果评分、修正反馈),通过强化学习动态调整检索策略。例如,当用户对某类医学检索结果频繁进行二次查询时,系统可自动学习该领域的潜在查询扩展规则,逐步构建自适应的领域知识图谱。
通过上述方向的探索,DIVER 有望从「通用检索工具」进化为「场景感知的智能检索伙伴」,在保持技术领先性的同时,进一步贴近实际应用中的多样化需求。