RAG面试内容整理-8. 文档分块策略(滑动窗口、语义切分)
RAG系统通常面对长文档或整篇知识库资料的检索需求,但大模型一次处理的文本长度有限,向量索引也需固定大小的文本片段。因此,将长文档拆分成合适片段是必不可少的步骤,被称为文档分块(chunking)策略。合理的分块有助于提高检索召回和后续生成的效果,避免“丢失在中间”(lost in the middle)的问题。
常见的分块方法之一是固定长度滑动窗口。例如,将文档按每段512个字(或 token)划分,相邻块之间可以有一定重叠(如 overlap 128 字)以免有重要句子被截断分散到不同块。这种方法实现简单,能保证覆盖文档全部内容且块大小适中。不过固定长度可能会在不恰当的位置截断句子或段落,造成语义不连贯甚至句意残缺。为缓解此问题,可以在切割时对齐自然段落或句子边界