RAG升级:Re-rank模型微调,实现极致检索精度
1. 引言:为何Re-rank是高性能RAG的“胜负手”?
传统的RAG召回阶段通常采用**双编码器(Bi-Encoder)**架构,如基于向量的相似度搜索。它将查询(Query)和文档块(Passage)独立编码为向量,然后快速计算它们之间的相似度。这种方式速度快,适合在海量数据中进行初步筛选(召回)。
双编码器的局限:由于查询和文档块是独立编码的,模型无法捕捉它们之间细微的、深度的交互信息。例如,它可能难以理解否定、反讽、复杂的条件关系等。
Re-rank模型的出现:Re-rank模型通常采用交叉编码器(Cross-Encoder)架构。它将查询和单个文档块拼接在一起,作为一个整体输入到Transformer模型中,让模型内部的自注意力机制充分捕捉二者之间的深度交互关系,最终输出一个单一的相关性分数。
RAG中的两阶段检索流程:
- 召回 (Recall):使用快速的双编码器(如向量检索)从数百万文档中召回一个较大的候选集(如Top 100)。