当前位置: 首页 > news >正文

RAG中的chunk以及评测方法

RAG中的chunk以及评测方法

https://www.pinecone.io/learn/chunking-strategies/

分块(chunking)是将大块文本分解成小段的过程。chunk的主要原因是尽量减少我们Embedding内容的噪音,所以为知识库中的文档找到最为合适的chunk大小,非常影响后续查找的准确性和相关性。

chunk的一些需要思考的问题

  • 被索引的内容:长文档还是短内容。这会影响选择embedding model,从而也影响chunk的策略。每个embedding model在不同的大小的chunk上的表现不一样。例如 sentence-transformer在单个句子上表现很好,text-embedt-ada-002这样的模型在包含256或512个tokens的块上表现得更好。
  • 用户的输入的prompt的长度也是需要考虑的内容。
  • 大模型tokens上限也会影响chunk的大小。

chunk的几种方法

如下介绍的方法在当前成熟的框架中几乎都已经支持了,例如langchain、llamaindex等。

  • 固定大小是指确定tokens的数量,以及它们之间是否有重叠(有一些重叠能够保留部分上下文语义。)大部分的chunk都是采
http://www.dtcms.com/a/223464.html

相关文章:

  • 辅助脚本-通用开发工作区目录结构生成脚本解析与实践指南
  • 5G 核心网 NGAP UE-TNL 偶联和绑定
  • C++学习-入门到精通【10】面向对象编程:多态性
  • 论坛系统(4)
  • C++核心编程_赋值运算符重载
  • 多线程(3)
  • 带sdf 的post sim 小结
  • azure web app创建分步指南系列之一
  • CMP401GSZ-REEL混合电压接口中的23ns延迟与±6V输入范围设计实现
  • const ‘不可变’到底是值不变还是地址不变
  • 痉挛性斜颈相关内容说明
  • 无人机桥梁3D建模、巡检、检测的航线规划
  • Spine工具入门教程2之导入
  • Linux安装及管理程序
  • 简易WLAN上传下载查看器by批处理
  • 95套HTML高端大数据可视化大屏源码分享
  • AI与软件工程结合的未来三年发展路径分析
  • AI对软件工程的影响及未来发展路径分析报告
  • ARXML解析与可视化工具
  • ToolsSet之:渐变色生成工具
  • 复刻真实世界的虚拟系统Goal
  • 漏洞Reconfigure the affected application to avoid use of weak cipher suites. 修复方案
  • Ts中的 可选链操作符
  • 【笔记】Suna 部署之 Supabase 数据库 schema 暴露操作
  • 【Doris基础】Doris中的Tablet详解:核心存储单元的设计与实现
  • 【笔记】Windows 系统安装 Supabase CLI 完整指南(基于 Scoop)
  • 解决开发者技能差距:AI 在提升效率与技能培养中的作用
  • C#定时器深度对比:System.Timers.Timer vs System.Threading.Timer性能实测与选型指南
  • 基于LBS的上门代厨APP开发全流程解析
  • 专业课复习笔记 11