AGI大模型(20):混合检索之rank_bm25库来实现词法搜索
1 混合检索简介
混合搜索结合了两种检索信息的方法
词法搜索 (BM25) :这种传统方法根据精确的关键字匹配来检索文档。例如,如果您搜索“cat on the mat”,它将找到包含这些确切单词的文档。
基于嵌入的搜索(密集检索) :这种较新的方法通过比较文档的语义来检索文档。查询和文档都被转换为高维向量(嵌入),系统检索其含义(向量表示)最接近查询的文档。
将 BM25 与上下文嵌入相结合的关键优势在于,它们各自的强项能够互补:
BM25&#x