当前位置: 首页 > news >正文

LLM+RAG:文本分块处理策略

文章目录

        • 文本分块的意义
        • 常见的文本分块策略
          • 2.1 固定大小文本切块 (递归方法)
          • 2.2 基于 `NLTK 、spaCy` 的文本切块
          • 在 LangChain 中的应用
          • 扩展:基于 `spaCy` 的文本切块
          • 2.3 特殊格式文本切块(HTML、Markdown)
          • LangChain 提供的特殊文本切块方法
            • 4.3.5 自定义扩展

文本分块的意义

大多数常用的数据分块方法(chunking)都是基于规则的,采用 fixed chunk size(将数据或文本按照固定的大小进行数据分块)或 overlap of adjacent chunks(让相邻的数据块具有重叠内容,确保信息不会丢失) 等技术。对于具有多个层级结构的文档,可以使用 Langchain 提供的 RecursiveCharacterTextSplitter,这种方法允许将文档按照不同的层级进行分割。

然而,在实际应用中,由于预定义的规则(比如数据分块大小(chunk size)或重叠部分的大小(size of overlapping parts))过于死板,基于规则的数据分块方法很容易导致检索到的上下文(retrieval contexts)不完整或包含 noise(指不需要的、干扰性的信息或数据,可能会对分析或处理造成干扰或误导的数据。) 的数据块过大等问题。

常见的文本分块策略

RA

相关文章:

  • ProfiNet转MODBUSTCP网关模块的实时性保障Logix5000控制器与AltivarProcess变频器同步控制方案
  • 基于 OpenCV 和 DLib 实现面部特征调整(眼间距、鼻子、嘴巴)
  • TestStand API编程:SequenceFile 基本操作
  • 【C/C++】线程局部存储:原理与应用详解
  • React从基础入门到高级实战:React 核心技术 - React 与 TypeScript:构建类型安全的应用
  • 解析极限编程-拥抱变化(第2版)笔记
  • USBIP是什么?技术实现方式与应用场景全解
  • Express+MySQL后台开发实战:从模块化到错误处理的全链路解析
  • 洛谷P1165—— 日志分析
  • python打卡day38@浙大疏锦行
  • 博图SCL基础知识-表达式及赋值运算
  • 嵌入式使用snprintf(str, sizeof(str), “ULV: %.3fV“,values);后出现小数部分丢失的错误以及解决方案
  • 数据要素配置如何驱动城市经济韧性的多元模式
  • 第四十五篇-Tesla P40+Qwen3-30B-A3B部署与测试
  • 电路图识图基础知识-主电路和辅助电路(七)
  • 网站资源加载出现401错误
  • 开源项目asp本地编译安装教程(ubuntu操作系统)
  • 数字孪生技术前沿探索:与5G/6G、区块链的深度融合及伦理治理框架构建
  • C# ToString格式说明符
  • Pic手机拼图软件:创意拼图,轻松上手
  • 中山精品网站建设新闻/百度平台商家客服电话
  • 织梦模板网站源码/网站建设
  • wordpress 找不到版权/seo提高关键词
  • 正定网站建设/网站建设知名公司
  • 重庆企业网站制作公司/营销策划公司
  • 公司推广网站怎么做/网站策划书的撰写流程