MinerU学习
基本概念
针对提到的 pipline 和 vlm 的解释
1. 什么是 pipeline(流水线式解析后端)
定义:pipeline 是 “多步骤流水线式” 的表格解析技术,核心逻辑是 “把复杂的解析任务拆分成多个独立步骤,按顺序执行,最终输出结果”,类似工厂里 “原材料→加工→组装→成品” 的流水线。
具体工作流程(以表格解析为例):
- 第一步:页面预处理:先清理文档页面(比如去除水印、修正倾斜、锐化文字),为后续识别做准备;
- 第二步:表格区域检测:从页面中定位 “哪里是表格”(区分表格和普通文字、图片);
- 第三步:单元格分割:把定位到的表格拆分成最小单位(单个单元格,如 A1、B2);
- 第四步:内容提取:识别每个单元格里的文字、数字(常用 OCR 技术,即 “光学字符识别”);
- 第五步:结构还原:根据单元格的位置关系(行、列),还原表格的逻辑结构(比如哪行是表头、哪列对应哪类数据);
- 新增步骤:跨页合并:在上述步骤后,额外判断 “当前表格是否与上一页的表格属于同一整体”,若属于则自动合并。
特点:步骤清晰、每个环节可单独优化(比如升级 OCR 提升文字识别准确率),技术成熟、稳定性高,是早期表格解析工具的主流方案。
2. 什么是 vlm(视觉语言模型后端)
定义:vlm 是 “视觉语言模型”(Visual-Language Model)的缩写,核心逻辑是 “让模型同时理解‘图像信息’和‘语言信息’”—— 它能直接把 “包含表格的页面” 当作一张 “图像”,结合对 “表格结构、文字含义” 的语言理解,一次性完成 “表格定位、内容提取、结构还原”,甚至跨页合并。
具体工作流程(以表格解析为例):
- 输入:页面图像 + 任务指令:把 “包含跨页表格的第 2 页” 图像输入模型,同时给出指令(如 “提取此页面的表格,并判断是否与上一页表格合并”);
- 模型理解:视觉 + 语言:模型通过 “视觉能力” 识别表格的线条、单元格位置、文字布局,通过 “语言能力” 理解 “表格表头含义、数据逻辑”(比如识别 “姓名、年龄” 表头,判断下一页的 “张三、25” 属于同一表格);
- 输出:完整表格结果:模型直接输出 “合并后的完整表格数据”,无需拆分多个步骤。
特点:端到端(一步完成任务)、灵活性强(能处理不规则表格,如合并单元格、无框线表格)、对 “跨页逻辑” 的理解更智能(基于语义而非单纯位置判断),是近年来随着 AI 大模型发展出现的新一代技术方案(比如 GPT-4V、Gemini 等都属于 vlm 范畴)。
MinerU 的流程
分类预处理
读取元数据 ,分析pdf的类型,文本型、图片型、扫描版
内容提取
布局检测:定位文档中不同于元素的位置
公式检测:定位文档中的公式位置
公式识别:识别公式,并转换成Latex的源码
OCR:对于扫描版的PDF提取图像中的文本内容
表格识别:RapidTable
管线处理
内容提取完毕后,将模型解析得到的数据,排序,删除无用元素,顺序和拼装,替换合并等