【RAG知识库实践】数据源Data Source
一、 数据来源
高性能RAG(Retrieval-Augmented Generation)系统的核心效能依赖于准确、清洁且结构化的原始知识数据。因此,通过文档读取器 (Converter) 将各类原始文档解析并转换为标准化Markdown格式,作为后续处理的统一基础
1.1 数据格式
支持多种数据来源和格式的解析处理:
-
飞书文档 (Lark Document)
- 使用
LarkParser解析器 - 基于
lark_oapiAPI定制化遍历解析文档的BlockType结构
- 使用
-
本地文件 (Local File)
- 支持格式:
.docx、.pdf、.xlsx、.xmind等 - 使用对应解析器:
DocxConverter、PDFConverter、XlsxConverter等 - 依赖开源库:
python-docx、pdfplumber、quivr等
- 支持格式:
