【RAG知识库实践】数据源Data Source
一、 数据来源
高性能RAG(Retrieval-Augmented Generation)系统的核心效能依赖于准确、清洁且结构化的原始知识数据。因此,通过文档读取器 (Converter) 将各类原始文档解析并转换为标准化Markdown格式,作为后续处理的统一基础
1.1 数据格式
支持多种数据来源和格式的解析处理:
-
飞书文档 (Lark Document)
- 使用
LarkParser
解析器 - 基于
lark_oapi
API定制化遍历解析文档的BlockType
结构
- 使用
-
本地文件 (Local File)
- 支持格式:
.docx
、.pdf
、.xlsx
、.xmind
等 - 使用对应解析器:
DocxConverter
、PDFConverter
、XlsxConverter
等 - 依赖开源库:
python-docx
、pdfplumber
、quivr
等
- 支持格式: