大模型RAG系统面试题及参考答案
目录
什么是 RAG?它由哪些核心部分组成?
RAG 与传统的 LLM(如 GPT)生成方式有何区别?
RAG 的设计初衷是什么?解决了哪些问题?
检索器(Retriever)在 RAG 中的作用是什么?
生成器(Generator)如何与检索器交互?
什么是向量检索(dense retrieval)与稀疏检索(sparse retrieval)?举例说明。
RAG 如何减少 “幻觉(hallucination)”?
为什么说 RAG 可以避免频繁 fine‑tuning?
RAG 的典型应用有哪些?(如 QA 系统、智能客服等)
RAG 的主要阶段有哪几步?请简要描述。
什么是组合检索(hybrid retrieval)?有何优势?
稠密向量索引库典型工具有哪些?(如 FAISS)有何特点?
RAG 系统如何嵌入不同比较异构的数据源?
RAG 如何在生成中加入检索结果?常见的 prompt 设计方式有哪些?
稀疏检索(如 BM25)与 dense 检索优劣对比?
什么是 Late Interaction?如何提升检索效果?
Late Interaction 的核心原理
提升检索效果的具体方法
Late Interaction 的优势与场景
PQ(Product Quantization)用于什么场景?
检索系统如何实现实时更新与索引重建?
如何处理海量文档的高效索引?
向量数据库 vs 关系型数据库选型建议?
如何优化检索质量?
什么是 ColBERT?其优劣势?
什么是多跳检索(multi-hop retrieval)?应用场景?
什么是 GraphRAG?结合知识图谱实现的 RAG?
检索系统中的 re-ranking 有哪些常用方法?
传统重排序方法
机器学习重排序方法
深度学习重排序方法
混合重排序策略
检索系统在分布式架构中如何扩展?
数据分片与索引分布式存储
查询路由与负载均衡
实时更新与索引一致性
架构扩展案例
Generator 接收到检索内容后是如何拼装 prompt 的?
直接拼接式 prompt
结构化指令模板
多轮检索 prompt 拼装
动态摘要与重点标注
提示工程优化策略
单轮 vs 多轮对话中 RAG 的 prompt 有何不同?
如何评估生成质量?(如 BLEU、ROUGE、human eval)?
如何控制生成中的 “hallucination”?
在生成器中引入 source attribution(出处引用)的方法?
多文档生成时如何保证一致性与逻辑?
如何通过 prompt 工程改进生成结果?
当检索结果不足时,Generator 应如何处理?
多轮对话中如何维护 context window 与 knowledge consistency?
RAG 系统中如何处理生成 latency 和成本问题?
RAG 系统整体架构有哪些模块?
检索和生成面向微服务如何解耦部署?
如何监控 RAG 系统的性能指标?(QPS、延迟、召回率等)
RAG 系统常见的 failure point 有哪些?
在生产环境中如何实现自动索引刷新?
如何保证跨语言 / 跨域的检索增强生成?
部署中如何平衡检索和生成的资源负载?
如何管理大规模多模态知识库?
使用 RAG 系统时的安全性与合规性问题?
智能缓存策略在 RAG 中如何设计?
怎么评价一个 RAG 系统?哪些维度关键?(precision、recall、F1、fluency 等)
BEIR 是什么?RAG 可使用哪些 benchmark?
如何搭建在线 A/B 测试评估 RAG 版本?
如何评估多跳检索效果?
RAG 系统如何量化 hallucinations?
生成结果的可信度评估策略有哪些?
如何持续监控检索召回率 drift?
面向领域特定 RAG 的 fine-tuning vs RAG 选型思路?
如何评估 re-ranking 的提升效果?
如何进行对抗性测试(adversarial testing)?
什么是 RAG?它由哪些核心部分组成?
RAG(Retrieval-Augmented Generation,检索增强生成)是一种将外部知识检索与语言模型生成能力相结合的技术框架。其核心逻辑在于让语言模型在生成内容时,不再仅依赖内部预训练的知识,而是通过检索外部知识库来获取最新、最准确的信息,从而提升生成内容的准确性、时效性和针对性。
RAG 系统主要由以下核心部分构成: 检索器(Retriever