【面试题】召回、排序哪个阶段最可能出问题?
召回阶段更容易出问题,原因如下:
-
错误传播放大
- 召回错误无法在后续阶段修复:没召回的文档永远没机会展示
- 排序错误只影响排名:相关文档至少有机会被看到
-
长尾问题严重
- 头部查询通常有足够训练数据,排序相对准确
- 长尾查询缺乏数据,召回失败率显著更高
-
数据依赖性
- 排序模型可以持续优化,召回更依赖基础设施
- 索引质量、embedding效果等问题直接影响召回
-
实际数据支持
在我们的系统中,分析显示:- 70%的bad case源于召回失败
- 20%源于排序错误
- 10%源于查询理解或其他问题
典型召回问题:
- 词汇不匹配:查询"AI技术" vs 文档"人工智能技术"
- 语义鸿沟:查询"省钱方法" vs 文档"个人理财技巧"
- 新鲜度问题:最新内容未被及时索引