当前位置：首页 > news >正文

RAG的5种高效切分策略：提升检索增强生成效果的关键

news 2025/9/22 2:37:32

在构建基于检索增强生成（RAG）的应用时，文本切分（Chunking）是至关重要的一步。合理的切分策略能够显著影响检索的准确性和大语言模型（LLM）生成回答的质量。本文将深入探讨五种主流的文本切分策略，并分析它们的优缺点，帮助您根据实际需求选择最合适的方案。

1. 固定大小切分 (Fixed-size Chunking)

最直接且易于实现的切分方法。

策略描述：这种方法根据预设的字符数、单词数或Token数量，将文本均匀地分割成若干段落。为了保持语义的连贯性，通常建议在连续段落间保留一定的重叠（Overlap）。
优点：
- 实现简单：无需复杂的逻辑或算法。
- 简化批处理：所有段落大小相同，方便进行批处理操作。
缺点：
- 语义破坏：最大的问题在于它可能在句子或完整概念的中间进行切分，导致重要信息分散在不同段落中，从而影响检索的完整性。

2. 语义切分 (Semantic Chunking)

致力于保持文本的语义完整性。

策略描述：这种方法旨在根据有意义的语义单元（如句子、段落或主题部分）来切分文档。具体流程如下：
1. 将文档切分为较小的语义单元（例如，句子）。
2. 为每个语义单元生成嵌入（Embeddings）。
3. 从第一个单元及其嵌入开始，计算其与后续单元嵌入的余弦相似度（Cosine Similarity）。
4. 如果相似度较高，则将这两个单元合并为一个切片。
5. 这个过程持续进行，直到余弦相似度显著下降，此时开始一个新的切片并重复上述过程。
优点：
- 保持语义完整性：与固定大小切分不同，它能更好地保持语言的自然流畅性，并保留完整的思想。
- 提高检索准确度：由于每个切片语义更为丰富和集中，这有助于提高检索的准确性。
- 提升LLM响应质量：检索到的内容更连贯且相关，进而使LLM生成的响应也更加自然和准确。
缺点：
- 阈值确定困难：确定余弦相似度下降的阈值可能在不同文档间有所不同，需要进行一定的调试和优化。

3. 递归切分 (Recursive Chunking)

一种灵活且自适应的切分策略。

策略描述：该方法首先基于文档的内在分隔符（如段落、章节、换行符等）进行切分。然后，如果某个切片的大小超过预定义的切片大小限制，就将其进一步分割。如果切片符合大小限制，则不再进行切分。这个过程会递归地执行，直到所有切片都满足大小要求。
优点：
- 灵活性高：能够根据文档的实际结构和预设的大小限制进行调整。
- 兼顾语义和大小：在一定程度上平衡了语义完整性和切片大小的限制。
缺点：
- 可能截断语义：在递归分割过程中，仍然可能在语义不完整的位置进行切分，尤其当单个语义单元过大时。

4. 基于文档结构的切分 (Document Structure-based Chunking)

利用文档自身的组织结构进行切分。

策略描述：这是一种直观的方法，它利用文档内在的结构信息（如标题、章节、子标题、段落等）来定义切片边界。例如，可以将每个标题下的内容作为一个切片，或者将每个段落作为独立的切片。
优点：
- 高度语义相关：如果文档结构清晰，这种方法能确保切片具有高度的语义相关性，因为它们天然地代表了文档的逻辑单元。
缺点：
- 依赖文档质量：该方法假设文档结构清晰且规范，但这并非总是如此。对于结构混乱或缺乏明确标题的文档，效果会大打折扣。
- 切片长度不一：切片的长度可能差异很大，有些切片可能非常长，甚至超过LLM的Token限制，需要结合其他策略（如递归切分）进行处理。

5. 基于LLM的切分 (LLM-based Chunking)

利用大型语言模型的智能进行切分。

策略描述：鉴于前述每种方法都有其局限性，可以考虑让大语言模型（LLM）自身来生成切片。通过精心设计的提示词（Prompts），LLM可以被指示去识别并生成语义隔离且有意义的切片。LLM能够理解上下文和深层含义，从而做出更智能的切分决策。
优点：
- 高语义准确性：LLM能理解上下文和意义，远超简单的启发式方法，因此能确保生成的切片具有极高的语义准确性。
- 适应性强：能够适应各种文档类型和内容，生成高质量的切片。
缺点：
- 计算成本高：由于需要调用LLM进行推理，这种方式的计算成本是五种方法中最高的，尤其对于大规模文档处理而言，效率是一个需要考虑的问题。

总结与展望

选择合适的RAG切分策略是一个权衡的过程。

对于简单场景或对成本敏感的应用，固定大小切分因其实现简单而具有优势，但需要注意语义损失。
追求高质量检索和LLM响应，语义切分和基于文档结构的切分是更好的选择，但需要处理阈值确定和文档结构依赖的问题。
递归切分则提供了一种折衷方案，在一定程度上平衡了语义和大小。
而基于LLM的切分则代表了未来的方向，它在语义准确性上表现出色，但其高昂的计算成本限制了其在所有场景下的广泛应用。

在实际应用中，通常会结合多种切分策略，形成一个多级或混合的切分方案，以最大限度地发挥各自的优势，并弥补不足。例如，可以先使用基于文档结构的切分进行粗粒度分割，再对每个粗粒度切片进行递归切分或语义切分。

相关推荐

2025大模型技术架构揭秘：GPT-4、Gemini、文心等九大模型核心技术对比与实战选型指南-CSDN博客
💡大模型中转API推荐
✨中转使用教程

技术交流：欢迎在评论区共同探讨！更多内容可查看本专栏文章，有用的话记得点赞收藏噜！

http://www.dtcms.com/a/243445.html

相关文章：

Linux进程管理：创建，终止，等待

Linux611 libvirtb ；FTP vsftpd.conf部分配置文件

C#简单线程启动的几种方法总结

npm包本地测试流程

为 Nginx 配置 HTTPS（以 n8n 为例）完整教程【CentOS 7】

时序数据库IoTDB数据模型建模实例详解

Java使用Selenium反爬虫优化方案

Nuxt3 中使用 pnpm 安装的 NuxtImg 使用会提示找不到图片

Linux(Centos 7.6)命令详解：whoami

时序数据库Influxdb3 core安装

【指针】（适合考研、专升本）

基础篇：5. HTTP/2 协议深度解析

递归，回溯，DFS，Floodfill，记忆化搜索

【编译工具】（自动化）AI 赋能的自动化测试工具：如何让测试效率提升 500% 并实现智能质检？

Flutter布局系统全面解析：从基础组件到复杂界面构建

一台电脑最多能接多少个硬盘

livetalking实时数字人多并发

计算机体系结构中的MPU是什么？

LangGraph基础知识(MemorySaver/SqliteSaver )（三）

web程序设计期末复习-填空题

uni-app 自定义路由封装模块详解（附源码逐行解读）

Java 内部类要点总览

开源夜莺支持MySQL数据源，更方便做业务指标监控了

Vision Prompt Tune（视觉提示微调）

在ARM 架构的 Mac 上更新Navicat到17后连接Oracle时报错：未加载 Oracle 库。

Windows 系统中修改文件默认打开方式

Java多线程实现之线程池详解

机器人教学和实践的可编程智能仿生机器人平台——智能六足机器人

临时抱佛脚v2

Vue Electron 使用来给若依系统打包成exe程序，出现登录成功但是不跳转页面（已解决）