当前位置: 首页 > news >正文

ai之 ubuntu本地安装mineru2.1.0

MinerU 目录

  • 一、更新内容概述
        • 写在前面的话:
        • 总体来看,2.0版本升级为全新的 VLM 解析模式,更优于以前的基础解析方式。
  • 二、MinerU 安装部署
    • 下面使用源码来进行环境安装。
        • 注意:
        • 当前状态说明
        • 推荐解决方案
    • 如果是下载插件慢可以 指定阿里源
  • 三、MinerU 使用
    • 1. 在线体验
    • 2. 命令行使用方式
        • 2-1. 基本调用形式:
        • 需要注意的是,如果下载完 modelscope 模型,再下次调用时,如果不添加--source modelscope,系统仍然会去下载huggingface模型。
        • 2-2. 关于模型的下载:
        • 2-2-1. 在线下载模型
        • Switch to ModelScope Source
        • 需要注意的是,如果下载完 modelscope 模型,再下次调用时,如果不添加--source modelscope,系统仍然会去下载huggingface模型。
        • 2-2-2. 离线下载模型到本地
    • 3. 通过python API 调用,或Visual Invocation调用方式
  • 四、sglang加速VLM模型推理
  • 五、VLM效率测试
    • 1. 参数说明
    • 2. vlm-transformers推理测试
        • 便于观察对比,怎么使显存限制到1张显卡上?
    • 3. sglang推理测试
  • 十、可能遇到的错误
    • 解决方式是安装cuda和安装gcc/g++(版本11):
        • 1. 安装cuda:
        • 2. 安装gcc/g++:

MinerU 仓库地址:https://github.com/opendatalab/mineru

一、更新内容概述

MinerU v2.0.0版本,更新内容简单概括如下:

  • 调用格式优化
    之前调用 MinerU 安装的包名为magic-pdf(MinerU仓库旧名),现在统一为 mineru,解决了命名一致性的问题。
  • 部署方式优化
    之前调用时,需要先手动下载模型,并生成 json 配置文件,现在模型无需手动下载,而会在首次调用时自动下载,并且具体配置信息可通过参数指定,无需再通过json配置文件。
  • 文件结构优化
    除代码结构优化之外,下载的模型目录和输出的结果目录会更加清晰。
  • 方向垂直化
    移除了内置的 LibreOffice 文档转换模块,解析文件将仅支持 pdf/jpg/png
  • 全新的 VLM 解析方式
    推出了仅0.9B参数量的 VLM 模型,单模型涵盖所有文档解析任务,精度优于传统 72B 级别的 VLM 模型。

在本文中,以前的解析方式统称为基础解析方式,VLM解析方式则称为VLM解析方式。

写在前面的话:

区别是在使用时,通过 -b 或 --backend参数,可指定使用基础解析方式或vlm解析方式:
总的分

  • pipeline:基础解析方式
  • vlm-transformers:vlm解析方式
    2种 解析方式。

其中 vlm解析方式 在调用时又可细分为:

  • vlm-sglang-engine:vlm加速解析方式
  • vlm-sglang-client:vlm加速解析方式(连接sglang 服务调用)

所以在实际调用时,就可以有4种 -b 指定

mineru -p shencha.pdf -o result --source modelscope -b vlm-transformers 

通过外部指定CUDA_VISIBLE_DEVICES来强行约束进程只看到限定的显卡。

下面指定进程将所有显存放到第1张显卡(编号0)上。

CUDA_VISIBLE_DEVICES=0 mineru -p shencha.pdf -o result --source modelscope -b vlm-transformers

通过设定vlm-sglang-engine参数来控制使用sglang推理。

CUDA_VISIBLE_DEVICES=0 mineru -p shencha.pdf -o result --source modelscope -b vlm-sglang-engine

实测发现,对于-b vlm-sglang-engine,显存占用会明显增加。当然,速度提升也非常明显,达到了5s/页。

总体来看,2.0版本升级为全新的 VLM 解析模式,更优于以前的基础解析方式。

估计是它内部采用了某些加速机制,可以通过更高的显存占用换取更快的时间,默认情况下,会尽可能最大利用剩余显存资源。

————————————————

二、MinerU 安装部署

  • 前置条件:MinerU v2.0.0 兼容的python版本为 3.10-3.14。
  • 仓库readme.md文件中,Local Deployment 部分示例了两种安装方法:1.1 Install via pip or uv 和 1.2. Install from source。
    至于1.3 是两种版本:核心版(无需 sglang 加速) 和 完整版(包含 sglang 加速,会多一些依赖)

下面使用源码来进行环境安装。

  1. 下载源码
(base) root@hostname: cd /usr/local/soft/ai/minerU 
(base) root@hostname:/usr/local/soft/ai/minerU# git clone https://gitee.com/ai_seek/MinerU.gitCloning into 'MinerU'...
remote: Enumerating objects: 17202, done.
remote: Counting objects: 100% (3298/3298), done.
remote: Compressing objects: 100% (1373/1373), done.
remote: Total 17202 (delta 1893), reused 3158 (delta 1817), pack-reused 13904 (from 1)
Receiving objects: 100% (17202/17202), 129.58 MiB | 10.00 MiB/s, done.
Resolving deltas: 100% (10278/10278), done.
(base) root@hostname:/usr/local/soft/ai/minerU# 
(base
http://www.dtcms.com/a/271004.html

相关文章:

  • 整合Spring、Spring MVC与MyBatis:构建高效Java Web应用
  • Ubuntu22.04 设置显示存在双屏却无法双屏显示
  • DAS3D: Dual-modality Anomaly Synthesis for 3D Anomaly Detection 论文精读
  • 高通SG882G平台(移远),Ubuntu22编译:1、下载代码
  • 新零售“云化”进化:基于定制开发开源AI智能名片S2B2C商城小程序的探索
  • 中兴通讯首席项目管理专家、PMCoE负责人张宝忠受邀为PMO大会演讲嘉宾
  • redis的命令集合
  • WPF使用WebBrowser 解决href标签target=_blank在浏览器窗口打开新链接而非窗体内部打开的问题
  • Docker高级管理
  • 不深入,则无法共情
  • mysql 可用性的保障机制:主讲主从复制机制
  • Git 详解:从概念,常用命令,版本回退到工作流
  • 【03】MFC入门到精通——MFC 添加控件 设置属性 按钮 文本框
  • 《【第五篇】图片处理自动化:让你的视觉内容更专业!:图片处理基础与批量裁剪》
  • 06每日简报20250709
  • Vue 中mounted 生命周期钩子的执行时机和 v-for 的渲染顺序
  • linux-进程信号的产生与发送
  • 简单易懂的方式聊聊 DDD(领域驱动设计)
  • 汽车功能安全-软件单元验证 (Software Unit Verification)【用例导出方法、输出物】8
  • 分库分表之实战-sharding-JDBC水平分库+分表后:查询与删除操作实战
  • 【话题长廊测试报告】
  • qt绘制饼状图并实现点击即放大点击部分
  • 开发制作模仿参考抄别人的小程序系统
  • Shusen Wang推荐系统学习 --召回 ItemCF
  • RabbitMQ 高级特性之事务
  • 心智模式:觉察思维定势,突破决策盲区
  • 【Ubuntu22.04安装ROS Noetic】
  • Android Notification 通过增加addAction 跳转回Service重新执行逻辑
  • 沃丰科技海外客服系统综合解决方案
  • 36氪专访丨乐橙CEO谢运:AI科技下的业务创新与长期主义下的品牌坚守