当前位置: 首页 > news >正文

RAG中的chunk以及评测方法

RAG中的chunk以及评测方法

https://www.pinecone.io/learn/chunking-strategies/

分块(chunking)是将大块文本分解成小段的过程。chunk的主要原因是尽量减少我们Embedding内容的噪音,所以为知识库中的文档找到最为合适的chunk大小,非常影响后续查找的准确性和相关性。

chunk的一些需要思考的问题

  • 被索引的内容:长文档还是短内容。这会影响选择embedding model,从而也影响chunk的策略。每个embedding model在不同的大小的chunk上的表现不一样。例如 sentence-transformer在单个句子上表现很好,text-embedt-ada-002这样的模型在包含256或512个tokens的块上表现得更好。
  • 用户的输入的prompt的长度也是需要考虑的内容。
  • 大模型tokens上限也会影响chunk的大小。

chunk的几种方法

如下介绍的方法在当前成熟的框架中几乎都已经支持了,例如langchain、llamaindex等。

  • 固定大小是指确定tokens的数量,以及它们之间是否有重叠(有一些重叠能够保留部分上下文语义。)大部分的chunk都是采

相关文章:

  • 辅助脚本-通用开发工作区目录结构生成脚本解析与实践指南
  • 5G 核心网 NGAP UE-TNL 偶联和绑定
  • C++学习-入门到精通【10】面向对象编程:多态性
  • 论坛系统(4)
  • C++核心编程_赋值运算符重载
  • 多线程(3)
  • 带sdf 的post sim 小结
  • azure web app创建分步指南系列之一
  • CMP401GSZ-REEL混合电压接口中的23ns延迟与±6V输入范围设计实现
  • const ‘不可变’到底是值不变还是地址不变
  • 痉挛性斜颈相关内容说明
  • 无人机桥梁3D建模、巡检、检测的航线规划
  • Spine工具入门教程2之导入
  • Linux安装及管理程序
  • 简易WLAN上传下载查看器by批处理
  • 95套HTML高端大数据可视化大屏源码分享
  • AI与软件工程结合的未来三年发展路径分析
  • AI对软件工程的影响及未来发展路径分析报告
  • ARXML解析与可视化工具
  • ToolsSet之:渐变色生成工具
  • 百姓网如何创建位置/优化大师电视版
  • 济南润滑油网站制作/seo推广知识
  • 汉中网站建设/口碑营销经典案例
  • 网站收录问题/百度查看订单
  • 河南专业网站建设公司排名/seo就是搜索引擎广告
  • 网站快速收录方法/超级外链工具