chunk_overlap(通常译为“分块重叠度”)
在文档处理(尤其是大模型RAG系统、文本索引构建)中,chunk_overlap(通常译为“分块重叠度”) 是控制长文档分割为小文本块(chunk)时,相邻文本块之间重复内容长度的参数。其核心作用是避免因机械分块导致的语义割裂,确保关键信息(如句子、概念、逻辑关系)在相邻块中保持连贯性。
一、核心定义与作用
当处理长文档(如论文、报告)时,需将其分割为固定长度的小文本块(chunk,通常以token或字符为单位),以便高效进行向量嵌入(embedding)和检索。chunk_overlap 定义了前一个文本块的末尾与后一个文本块的开头之间重复的内容长度。
举例:
若 chunk_size=500(每个块最大500 token),chunk_overlap=100(重叠100 token),则:
- 第1块:文本位置
1-500token - 第2块:文本位置
401-900token(与第1块重叠401-500token) - 第3块:文本位置
801-1300token(与第2块重叠801-900token)
