当前位置：首页 > news >正文

RAG创新方案支REFRAG

news 2025/10/9 10:25:48

检索增强生成（RAG）已成为提升大型语言模型（LLM）回答问题时效性和准确性的关键技术。然而，当RAG系统需要处理大量检索到的文档（即长上下文）时，一个严峻的工程挑战浮出水面：推理延迟。将成千上万个token组成的上下文送入LLM进行预填充（prefill），不仅计算量巨大，导致**首token生成时间（Time-To-First-Token, TTFT）**急剧增加，还会挤占宝贵的KV Cache内存，降低系统的整体吞吐量。

最近来自Meta 提出了REFRAG (REpresentation For RAG)，一个专为RAG应用量身定制的、旨在从根本上解决长上下文解码效率瓶颈的创新框架。它并非对LLM架构进行大刀阔斧的改造，而是通过一种巧妙的**“上下文压缩”策略，将大部分检索到的文本块（chunks）替换为其预计算好的、紧凑的块嵌入（chunk embeddings），从而在不显著牺牲性能的前提下，实现了高达30倍**的TTFT加速。

1. 引言：RAG长上下文的“效率困境”

标准RAG在处理长上下文时存在三大痛点：

低效的Token分配 (Inefficient Token Allocation)：RAG的上下文由多个独立的、检索到的文档块拼接而成。这些块之间通常语义不相关，注意力模式呈现出**块对角（block-diagonal）**特性（见论文Fig. 7）。然而，标准的自注意力机制仍然会为块与块之间的

查看全文

http://www.dtcms.com/a/458137.html