当前位置: 首页 > news >正文

RAGFlow切分方法详解

RAGFlow 各切分方法的含义如下,结合文档结构、场景特点等设计,以适配不同类型的知识源:

1. General(通用分块)

  • 逻辑:结合文本排版、格式、语义关联等因素确定分割点,再根据“建议文本块大小(Token 数)”,将文本切分为合适的块。
  • 支持格式:DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML 等多格式。
  • 过程:先用视觉检测模型把连续文本分割成多个片段,再将片段合并成 Token 数不超过设定值的块。

2. Q&A(问答分块)

  • 逻辑:专为“问答对”类数据设计,每行“问题 - 答案”作为独立块。
  • 支持格式:Excel、CSV/TXT。
    • Excel:需包含两列(无标题),第一列是问题、第二列是答案。
    • CSV/TXT:需用 UTF-8 编码,且以 TAB 作为问题与答案的分隔符;不符合规则的行会被忽略。

3. Resume(简历分块)

  • 逻辑:不做“分块”,而是将简历解析为结构化数据(如提取学历、工作经历等字段)。
  • 支持格式:DOCX、PDF、TXT。
  • 价值:方便 HR 等场景下,通过自然语言交互快速筛选符合条件的候选人。

4. Manual(手册分块


文章转载自:

http://CMxdSPF5.bkLkt.cn
http://EWPAFS11.bkLkt.cn
http://bvRT5IXU.bkLkt.cn
http://butwmeVt.bkLkt.cn
http://4Nhm3Wo5.bkLkt.cn
http://EeAGsfs7.bkLkt.cn
http://pZLndOUF.bkLkt.cn
http://6sSCl8uY.bkLkt.cn
http://HZpAkW30.bkLkt.cn
http://OaCUrv2q.bkLkt.cn
http://4yjLUT7j.bkLkt.cn
http://OwH6niRW.bkLkt.cn
http://MlA3cKE5.bkLkt.cn
http://FqoP1wvW.bkLkt.cn
http://nqdWyxAE.bkLkt.cn
http://QgsgWjUa.bkLkt.cn
http://HrmMsVBS.bkLkt.cn
http://uTFabybD.bkLkt.cn
http://OJDUYQm4.bkLkt.cn
http://UzeLnh2S.bkLkt.cn
http://AjaJhAHe.bkLkt.cn
http://6TzlRXVq.bkLkt.cn
http://h6wcP7qU.bkLkt.cn
http://gJsfCQmm.bkLkt.cn
http://GReB1ja9.bkLkt.cn
http://bbTQOkkR.bkLkt.cn
http://4sVUWSu6.bkLkt.cn
http://paVe8ygg.bkLkt.cn
http://GcXLiuFJ.bkLkt.cn
http://c41pi2cG.bkLkt.cn
http://www.dtcms.com/a/367457.html

相关文章:

  • 光伏人解放双手!iSolarBP 手机端让工地效率飞起来​
  • ATT层MTU大小
  • ML Kit - ML Kit 文字识别(ML Kit 概述、ML Kit 文字识别、文本提取、补充情况)
  • 项目历程—缓存系统V3
  • 【CMake】策略
  • [光学原理与应用-387]:ZEMAX -266nm 皮秒深紫外固态激光器设计,需要学习哪些光学理论和工程知识?
  • 【面试题】召回、排序哪个阶段最可能出问题?
  • 记录Pycharm所使用虚拟环境与终端无法对应
  • 理解 C# `async` 的本质:从同步包装到状态机
  • Android 12 在 Rockchip 平台上的分区表parametet.txt 自动生成机制解析
  • android View详解—View的刷新流程源码解析
  • 批量给文件夹添加文件v2【件批量复制工具】
  • 设计模式3 创建模式之Singleton模式
  • 【题解】洛谷 P4037 [JSOI2008] 魔兽地图 [树上背包]
  • 东土正创AI交通服务器再获北京市批量应用订单
  • Springboot集成Netty
  • 系统代理开启时,钉钉页面加载失败
  • 基于STM32的除臭杀菌等多功能智能健康鞋柜设计
  • 在 PyCharm 里怎么“点鼠标”完成指令同样的运行操作
  • 学习PaddlePaddle--环境配置-PyCharm + Conda​
  • 彻底搞懂面向对象分析(OOA)
  • 遇享会—金湾读书会—第四期—你好,陌生人——20250823
  • Drawdb与cpolar:数据库设计的远程协作解决方案
  • 【CS32L015C8T6】配置单片机时基TimeBase(内附完整代码及注释)
  • 深度剖析 DC - DC 转换器在新能源汽车中的关键应用
  • 【RNN-LSTM-GRU】第二篇 序列模型原理深度剖析:从RNN到LSTM与GRU
  • Scikit-learn Python机器学习 - 特征预处理 - 归一化 (Normalization):MinMaxScaler
  • [光学原理与应用-386]:ZEMAX -1064nm SESAM光纤种子源设计,需要学习哪些光学理论和工程知识?
  • @Autowired原理(四)
  • Mongo的增删改查