ai之 ubuntu本地安装mineru2.1.0
MinerU 目录
- 一、更新内容概述
- 写在前面的话:
- 总体来看,2.0版本升级为全新的 VLM 解析模式,更优于以前的基础解析方式。
- 二、MinerU 安装部署
- 下面使用源码来进行环境安装。
- 注意:
- 当前状态说明
- 推荐解决方案
- 如果是下载插件慢可以 指定阿里源
- 三、MinerU 使用
- 1. 在线体验
- 2. 命令行使用方式
- 2-1. 基本调用形式:
- 需要注意的是,如果下载完 modelscope 模型,再下次调用时,如果不添加--source modelscope,系统仍然会去下载huggingface模型。
- 2-2. 关于模型的下载:
- 2-2-1. 在线下载模型
- Switch to ModelScope Source
- 需要注意的是,如果下载完 modelscope 模型,再下次调用时,如果不添加--source modelscope,系统仍然会去下载huggingface模型。
- 2-2-2. 离线下载模型到本地
- 3. 通过python API 调用,或Visual Invocation调用方式
- 四、sglang加速VLM模型推理
- 五、VLM效率测试
- 1. 参数说明
- 2. vlm-transformers推理测试
- 便于观察对比,怎么使显存限制到1张显卡上?
- 3. sglang推理测试
- 十、可能遇到的错误
- 解决方式是安装cuda和安装gcc/g++(版本11):
- 1. 安装cuda:
- 2. 安装gcc/g++:
MinerU 仓库地址:https://github.com/opendatalab/mineru
一、更新内容概述
MinerU v2.0.0版本,更新内容简单概括如下:
- 调用格式优化
之前调用 MinerU 安装的包名为magic-pdf(MinerU仓库旧名),现在统一为 mineru,解决了命名一致性的问题。 - 部署方式优化
之前调用时,需要先手动下载模型,并生成 json 配置文件,现在模型无需手动下载,而会在首次调用时自动下载,并且具体配置信息可通过参数指定,无需再通过json配置文件。 - 文件结构优化
除代码结构优化之外,下载的模型目录和输出的结果目录会更加清晰。 - 方向垂直化
移除了内置的 LibreOffice 文档转换模块,解析文件将仅支持 pdf/jpg/png - 全新的 VLM 解析方式
推出了仅0.9B参数量的 VLM 模型,单模型涵盖所有文档解析任务,精度优于传统 72B 级别的 VLM 模型。
在本文中,以前的解析方式统称为基础解析方式,VLM解析方式则称为VLM解析方式。
写在前面的话:
区别是在使用时,通过 -b 或 --backend参数,可指定使用基础解析方式或vlm解析方式:
总的分
- pipeline:基础解析方式
- vlm-transformers:vlm解析方式
2种 解析方式。
其中 vlm解析方式 在调用时又可细分为:
- vlm-sglang-engine:vlm加速解析方式
- vlm-sglang-client:vlm加速解析方式(连接sglang 服务调用)
所以在实际调用时,就可以有4种 -b 指定
mineru -p shencha.pdf -o result --source modelscope -b vlm-transformers
通过外部指定CUDA_VISIBLE_DEVICES来强行约束进程只看到限定的显卡。
下面指定进程将所有显存放到第1张显卡(编号0)上。
CUDA_VISIBLE_DEVICES=0 mineru -p shencha.pdf -o result --source modelscope -b vlm-transformers
通过设定vlm-sglang-engine参数来控制使用sglang推理。
CUDA_VISIBLE_DEVICES=0 mineru -p shencha.pdf -o result --source modelscope -b vlm-sglang-engine
实测发现,对于-b vlm-sglang-engine,显存占用会明显增加。当然,速度提升也非常明显,达到了5s/页。
总体来看,2.0版本升级为全新的 VLM 解析模式,更优于以前的基础解析方式。
估计是它内部采用了某些加速机制,可以通过更高的显存占用换取更快的时间,默认情况下,会尽可能最大利用剩余显存资源。
————————————————
二、MinerU 安装部署
- 前置条件:MinerU v2.0.0 兼容的python版本为 3.10-3.14。
- 仓库readme.md文件中,Local Deployment 部分示例了两种安装方法:1.1 Install via pip or uv 和 1.2. Install from source。
至于1.3 是两种版本:核心版(无需 sglang 加速) 和 完整版(包含 sglang 加速,会多一些依赖)
下面使用源码来进行环境安装。
- 下载源码
(base) root@hostname: cd /usr/local/soft/ai/minerU
(base) root@hostname:/usr/local/soft/ai/minerU# git clone https://gitee.com/ai_seek/MinerU.gitCloning into 'MinerU'...
remote: Enumerating objects: 17202, done.
remote: Counting objects: 100% (3298/3298), done.
remote: Compressing objects: 100% (1373/1373), done.
remote: Total 17202 (delta 1893), reused 3158 (delta 1817), pack-reused 13904 (from 1)
Receiving objects: 100% (17202/17202), 129.58 MiB | 10.00 MiB/s, done.
Resolving deltas: 100% (10278/10278), done.
(base) root@hostname:/usr/local/soft/ai/minerU#
(base