RAG面试内容整理-2. 稀疏检索基础(倒排索引、TF-IDF、BM25 等)
稀疏检索是信息检索的传统方法,利用词项匹配和统计权重来检索相关文档。典型的实现是倒排索引(Inverted Index):为每个词汇维护一个文档列表,从而能高效地根据查询词找到包含这些词的文档集合。检索算法通常使用TF-IDF(词频-逆文档频率)或改进的BM25模型计算文档与查询的相关性。TF-IDF通过计算词语在文档中的频率(TF)以及该词语在整个语料库中出现的稀有程度(IDF)来评估词的重要性。BM25在TF-IDF基础上进一步引入了长度归一化等策略,被认为是一种概率检索模型,它综合考虑词频和逆文档频率,确保常见词和罕见词对相关性排名都产生适当影响。通俗来说,BM25会根据查询词在文档中出现的次数以及该词在所有文档中的稀有程度来打分,从而平衡不同词项的重要性。