RAG创新方案支REFRAG
检索增强生成(RAG)已成为提升大型语言模型(LLM)回答问题时效性和准确性的关键技术。然而,当RAG系统需要处理大量检索到的文档(即长上下文)时,一个严峻的工程挑战浮出水面:推理延迟。将成千上万个token组成的上下文送入LLM进行预填充(prefill),不仅计算量巨大,导致**首token生成时间(Time-To-First-Token, TTFT)**急剧增加,还会挤占宝贵的KV Cache内存,降低系统的整体吞吐量。
最近来自Meta 提出了REFRAG (REpresentation For RAG),一个专为RAG应用量身定制的、旨在从根本上解决长上下文解码效率瓶颈的创新框架。它并非对LLM架构进行大刀阔斧的改造,而是通过一种巧妙的**“上下文压缩”策略,将大部分检索到的文本块(chunks)替换为其预计算好的、紧凑的块嵌入(chunk embeddings),从而在不显著牺牲性能的前提下,实现了高达30倍**的TTFT加速。
1. 引言:RAG长上下文的“效率困境”
标准RAG在处理长上下文时存在三大痛点:
- 低效的Token分配 (Inefficient Token Allocation):RAG的上下文由多个独立的、检索到的文档块拼接而成。这些块之间通常语义不相关,注意力模式呈现出**块对角(block-diagonal)**特性(见论文Fig. 7)。然而,标准的自注意力机制仍然会为块与块之间的