当前位置: 首页 > news >正文

rag文本切块

naive chunk

固定大小文本切块

大模型应用开发框架LangChain为用户提供了RecursiveCharacterTextSplitter文本切分方法,在尽量保证上下文完整性的情况下,允许文本块的大小略微偏离预设大小。调用方式如下:

特殊格式文本切块

对诸如HTML、Markdown、LaTeX、Python代码等具有特殊内在结构的文本进行切块。在进行切块时,应充分考虑其结构信息,以减少因文本切块而导致的上下文信息损失。LangChain为用户提供了多种特殊文本切块方法,具体如表4-1所示。处理Python代码、Markdown、LaTeX的方法非常简单,针对不同的文本类型默认设置了不同的分割符列表,然后进一步调用固定大小文本切块方法

RecursiveCharacterTextSplitter。此外,LangChain还为用户预定义了其他常用编程语言(如Go、C++、Java)的分割符列表,但并未定义分割这些编程语言文本的类接口。如果用户需要,则可以按照PythonCodeTextSplitter的实现方法进行快速定义。

其他

业界常用的方案,比如根据文本内容,将每个字标题下的文本分为一块

 

相关文章:

  • 算法备案如何判断自己的产品是否具备舆论属性
  • 开源Heygem本地跑AI数字人视频教程
  • 彻底解决QT5 中文编译不过问题
  • 《Python星球日记》 第70天:Seq2Seq 与Transformer Decoder
  • 为什么我不能获取到镜像,ImagePullBackoff
  • archliunx关闭自动休眠
  • 使用 Semantic Kernel 调用 Qwen-VL 多模态模型
  • Spring Boot 自动装配技术方案书
  • 什么是alpaca 或 sharegpt 格式的数据集?
  • QT之QComboBox组件
  • AbMole解读:脂质体的关键组分和主要合成方法
  • 致远OA项目管理应用包简介【附百度网盘链接】
  • C++ 并发编程(1)再学习,为什么子线程不调用join方法或者detach方法,程序会崩溃? 仿函数的线程启动问题?为什么线程参数默认传参方式是值拷贝?
  • CPU的用户态(用户模式)和核心态(内核态)
  • CARS geom文件
  • 【经验记录】为什么安装node时会依赖Python
  • 实验九视图索引
  • Ota++框架学习
  • 如何查看打开的 git bash 窗口是否是管理员权限打开
  • EasyRTC嵌入式音视频通信SDK打造带屏IPC全场景实时通信解决方案
  • 远洋集团:今年前4个月销售80.9亿元,同比增加13.62%
  • 十年磨一剑!上海科学家首次揭示宿主识别肠道菌群调控免疫新机制
  • 光明日报:家长孩子共同“息屏”,也要保证高质量陪伴
  • 在稳市场稳预期下,投资者教育给了散户更多底气
  • 视频|王弘治:王太后,“先天宫斗圣体”?
  • 世界期待中美对话合作带来更多确定性和稳定性