当前位置: 首页 > news >正文

MinerU学习

基本概念

image-20250913215325606

针对提到的 pipline 和 vlm 的解释

1. 什么是 pipeline(流水线式解析后端)

定义:pipeline 是 “多步骤流水线式” 的表格解析技术,核心逻辑是 “把复杂的解析任务拆分成多个独立步骤,按顺序执行,最终输出结果”,类似工厂里 “原材料→加工→组装→成品” 的流水线。

具体工作流程(以表格解析为例)

  1. 第一步:页面预处理:先清理文档页面(比如去除水印、修正倾斜、锐化文字),为后续识别做准备;
  2. 第二步:表格区域检测:从页面中定位 “哪里是表格”(区分表格和普通文字、图片);
  3. 第三步:单元格分割:把定位到的表格拆分成最小单位(单个单元格,如 A1、B2);
  4. 第四步:内容提取:识别每个单元格里的文字、数字(常用 OCR 技术,即 “光学字符识别”);
  5. 第五步:结构还原:根据单元格的位置关系(行、列),还原表格的逻辑结构(比如哪行是表头、哪列对应哪类数据);
  6. 新增步骤:跨页合并:在上述步骤后,额外判断 “当前表格是否与上一页的表格属于同一整体”,若属于则自动合并。

特点:步骤清晰、每个环节可单独优化(比如升级 OCR 提升文字识别准确率),技术成熟、稳定性高,是早期表格解析工具的主流方案。

2. 什么是 vlm(视觉语言模型后端)

定义:vlm 是 “视觉语言模型”(Visual-Language Model)的缩写,核心逻辑是 “让模型同时理解‘图像信息’和‘语言信息’”—— 它能直接把 “包含表格的页面” 当作一张 “图像”,结合对 “表格结构、文字含义” 的语言理解,一次性完成 “表格定位、内容提取、结构还原”,甚至跨页合并。

具体工作流程(以表格解析为例)

  1. 输入:页面图像 + 任务指令:把 “包含跨页表格的第 2 页” 图像输入模型,同时给出指令(如 “提取此页面的表格,并判断是否与上一页表格合并”);
  2. 模型理解:视觉 + 语言:模型通过 “视觉能力” 识别表格的线条、单元格位置、文字布局,通过 “语言能力” 理解 “表格表头含义、数据逻辑”(比如识别 “姓名、年龄” 表头,判断下一页的 “张三、25” 属于同一表格);
  3. 输出:完整表格结果:模型直接输出 “合并后的完整表格数据”,无需拆分多个步骤。

特点:端到端(一步完成任务)、灵活性强(能处理不规则表格,如合并单元格、无框线表格)、对 “跨页逻辑” 的理解更智能(基于语义而非单纯位置判断),是近年来随着 AI 大模型发展出现的新一代技术方案(比如 GPT-4V、Gemini 等都属于 vlm 范畴)。

MinerU 的流程

分类预处理

读取元数据 ,分析pdf的类型,文本型、图片型、扫描版

内容提取

布局检测:定位文档中不同于元素的位置

公式检测:定位文档中的公式位置

公式识别:识别公式,并转换成Latex的源码

OCR:对于扫描版的PDF提取图像中的文本内容

表格识别:RapidTable

管线处理

内容提取完毕后,将模型解析得到的数据,排序,删除无用元素,顺序和拼装,替换合并等

结果质检

image-20250914105545267


文章转载自:

http://E1bUwub1.hxfrd.cn
http://2JrCya3l.hxfrd.cn
http://hoxVifIX.hxfrd.cn
http://MhrXYHln.hxfrd.cn
http://fJyH7EpW.hxfrd.cn
http://tcW8nTXa.hxfrd.cn
http://Hg8dA2KI.hxfrd.cn
http://2DSpgXkL.hxfrd.cn
http://FkMKbes1.hxfrd.cn
http://LxzpxjPt.hxfrd.cn
http://rb8JExHY.hxfrd.cn
http://rTm3H7Hg.hxfrd.cn
http://xLkfUhrY.hxfrd.cn
http://hO4dtgwt.hxfrd.cn
http://VcfGrtJK.hxfrd.cn
http://AlIiLkMQ.hxfrd.cn
http://zGBtbV5y.hxfrd.cn
http://Hal6TDDu.hxfrd.cn
http://X90gtl5o.hxfrd.cn
http://umuRe34w.hxfrd.cn
http://SVHUQk0f.hxfrd.cn
http://RZG5gKBe.hxfrd.cn
http://CpJWjmBJ.hxfrd.cn
http://O35P9VRH.hxfrd.cn
http://6p74cpAp.hxfrd.cn
http://1BOPxvlr.hxfrd.cn
http://3Bm76R9i.hxfrd.cn
http://wEUGIH7K.hxfrd.cn
http://5tXV13Nj.hxfrd.cn
http://QLJSe4Rv.hxfrd.cn
http://www.dtcms.com/a/382653.html

相关文章:

  • 网络安全学习
  • 如何用 Rust 重写 SQLite 数据库(一):项目探索
  • Qwen3-80B-A3B混合注意力机制
  • OBS使用教程:OBS多路推流插件如何下载?如何安装使用?
  • 禁用 vscode 的终端的粘滞滚动
  • 人工智能通识与实践 - 人工智能概述
  • Symantec卸载
  • 第34章 AI在文娱与内容创作领域的应用
  • 学生信息管理系统(面向对象初步接触)
  • LangChain 中 Output Parsers 是什么?
  • Wolfspeed重组计划已确认
  • 【C++】继承机制深度解析:多继承与菱形继承
  • 如何用Maxscript在选择样条线顶点放置球体?
  • (LeetCode 面试经典 150 题) 190. 颠倒二进制位(位运算)
  • P1043题解
  • 如何用 Rust 重写 SQLite 数据库(二):项目探索
  • SQLI-labs[Part 2]
  • 如何安装 Prometheus 2.20.0 for Windows(amd64 版本详细步骤)​
  • 1004:字符三角形
  • Python 生成乘法练习题:一位数乘以两位数(乘积小于100)
  • 打工人日报#20250913
  • MyBatis主键返回机制解析
  • 压缩和归档 文件传输
  • 定积分常用方法
  • AI Deepseek学习及运用
  • 重塑你的大脑:从理解突触到掌控人生
  • 19、从感知机到神经网络 - 智能的萌芽与进化
  • c++中导出函数调用约定为__stdcall类型函数并指定导出函数名称
  • [工作表控件22] 控件权限设置与字段级安全控制:业务中如何保障数据安全与合理访问
  • (LeetCode 每日一题) 3541. 找到频率最高的元音和辅音 (哈希表)