PaperPel
✅ 第一步:论文 PDF 文档解析模块
目标是实现以下功能:
-
从 PDF 中提取结构化文本(标题、正文、段落)
-
存为纯文本
.txt
或 JSON 文件,供后续嵌入使用
方案:采用 PyMuPDF (fitz)
来解析 PDF
学术PDF解析的挑战
问题 | 对后续流程的影响 |
---|---|
双栏排版 | 文本顺序错乱 → 语义断裂 |
数学公式/表格 | 解析为乱码 → 问答失效 |
参考文献引用标记 | 干扰语义 → 检索污染 |
图表标题与正文分离 | 关键信息丢失 → 问答不完整 |
✅ 第二步:Embedding & FAISS 检索模块
实现功能:
-
加载结构化解析后的文本(JSON)
-
将摘要 + 各章节切分为段落
-
使用 BGE / text2vec 模型生成向量
-
构建 FAISS 索引,支持后续语义检索
1. Embedding(嵌入)
核心思想:将文本、图像等数据转换为高维向量(一组数字),捕捉其语义或特征。
中文场景首选模型
模型 | MTEB中文榜排名 | 关键优势 | 缺点 | 推荐指数 |
---|---|---|---|---|
BAAI/bge-large-zh-v1.5 | 1 (6 |