文档切片(Document Chunking)
在文档切片(Document Chunking)过程中,核心目标是将长文档(如技术手册、法律合同、长篇报告)分割为适合模型处理的“子文本块”(Chunk),既要避免信息断裂(如拆分一个完整的条款或逻辑),又要适配模型的上下文窗口(如GPT-3.5的4k token、GPT-4的128k token)。不同的切片方法适用于不同的文档类型和业务场景,以下从“方法原理、核心参数、适用场景、优缺点”四个维度详细解析,附实操案例。
一、按“固定长度”切片:最简单直接的基础方法
原理
以固定的字符数、词数或token数为单位分割文档,不考虑文本的语义或结构(如每500字切一块,不足补全)。
核心参数
- 切片长度:根据模型上下文窗口设置(如模型支持4k token,则切片长度设为2000-3000字符,预留输出空间);
- 分割单位:字符(中文)、词(英文)、token(更精准,需提前计算)。
适用场景
- 结构简单、语义连贯的短文本:如新闻资讯、社交媒体内容、短篇博客(无复杂章节或嵌套逻辑);
- 快速原型开发:需快速实现切片功能,暂时不追求极致语义完整性(如初步搭建RAG系统验证流程)。
案例
将一篇3000字的科技新闻按500字切片,得到6个连续子块
