当前位置：首页 > news >正文

准确识别检索头，提高大模型长上下文能力

news 2025/8/10 3:17:53

论文标题

Query-Focused Retrieval Heads Improve Long-Context Reasoning and Re-ranking

论文地址

https://arxiv.org/pdf/2506.09944

代码地址

https://github.com/princeton-pli/QRHead

作者背景

普林斯顿大学，得克萨斯大学奥斯汀分校

动机

近来大模型的长上下文能力有了明显进步，但其内部机理尚未完全明确。研究者曾通过观察模型做大海捞针任务（Needle In A Haystack）时的表现发现了专门负责上下文复制粘贴的注意力头，称为“检索头”，进而发展出一些减少幻觉、提高推理能力、优化 kv-cache 的方法

然而相比于实际应用中的长上下文场景，大海捞针任务过于简单（复述关键信息），由此识别“检索头”可能并未充分理解各注意力头的协作关系，导致识别结果不准确

于是作者希望基于更贴近于真实长上下文检索任务，设计一种更准确有效的“检索头”识别方法，进而提高下游应用的效果

检索头介绍

“大海捞针”任务是当前衡量大模型长上下文的常用方法，它要求模型在不同长度的上下文、不同的上下文位置找出指定文本，统计准确率

在这里插入图片描述

在这一过程中，我们可以分别考察模型每一层的每一个注意力头，观察其对上下文中每个 token 产生的注意力分数，然后记录推理过程中注意力分数最高的 token 序列，最后统计此序列与“针”文本的重叠比例作为此注意力头的检索得分，高于0.1的则被识别为“检索头”，它在长上下文推理过程中主要负责复制粘贴已有文本

在这里插入图片描述

作者分析发现，“检索头”具备以下性质：

通用性： 任何具有长上下文能力的模型都有少量的检索头，无论其架构、训练方法如何
稀疏性： 只有少量注意力头负责检索，其他大部分则负责理解与生成

屏蔽检索头会严重影响上下文推理，模型产生大量幻觉（但语言是通顺的），显著降低推理效果（CoT推理时，模型需要不断回顾自己生成的内容）

一致性： 检索头是基础模型的固有能力，起源于大规模预训练，后续的衍生模型（继续预训练、微调）都与基础模型使用同一组检索头

Retrieval Head Mechanistically Explains Long-Context Factuality
https://arxiv.org/pdf/2404.15574

本文方法

一、QRHead 识别

本文提出QRHead（Query-Focused Retrieval Head，聚焦于查询的检索头），核心思想是从具体的长上下文推理任务出发，重新设计上述“检索分数”

在这里插入图片描述

如上图所示，相比于在合成数据上识别注意力头的复制粘贴行为，作者直接在真实上下文检索数据上（包含候选文档、目标文档、查询问题），统计所有目标文本的注意力分数之和，作为检索得分。在后续实验中，作者在参数量少于10B的模型上选择了分数最高的16个头，尺寸更大的模型（如Llama-3.1-70B）上选择了32个头，鉴于检索头的稀疏性，这大约占总注意力头的 1-2%

在这里插入图片描述