当前位置: 首页 > news >正文

MinerU环境部署

在虚拟环境下部署MinerU:好处就是起一个隔离作用,包的版本还有python版本看可以在一个独立的空间内执行,这样可以避免包版本不同带来的冲突与报错。

参考文章:(1)Mineru本地部署(截止2025.7.21)-CSDN博客

(2)MinerU教程第二弹丨MinerU 本地部署保姆级“喂饭”教程_mineru本地部署-CSDN博客

一、创建Conda环境

之前已经安装过,可参考教程:Anaconda的安装与Pycharm配置(完整版)_pycharm配置anaconda-CSDN博客

版本查看(不是安装必须步骤,只是展示,方便后续版本对应)

python版本 :3.10

二、创建虚拟环境部署MinerU

(1)输入以下命令:

conda create -n mineru python=3.10 

创建好之后结果显示:

(2)进入mineru虚拟环境,并下载magic-pdf[full]:

conda activate mineru
pip install -U "magic-pdf[full]" -i https://mirrors.aliyun.com/pypi/simple 

运行结果:

版本验证(不是必须步骤):

magic-pdf --version

结果:

三、下载模型文件

(1)参考文章(2)中给了两种下载方式,一个是国际用户一个是国内用户,这里选择适合国内用户的——从ModelScope下载模型(使用文档(2)方法不行,所以这一步可能不是必要的,直接先运行下一步就行,后续需要这个ModelScope再重新下载也可以):

pip install modelscope 

运行结果:

(2)获取 MinerU 项目官方提供的模型下载脚本,这一步会出现网络问题下不好,多试几次

git clone https://github.com/opendatalab/MinerU.git

如果实在不行或者速度比较慢,可以在url前添加一个镜像,github上的项目都通用(我没试):


git clone https://ghfast.top/https://github.com/opendatalab/MinerU.git

运行结果:

(3)进入Mineru安装相关依赖(如果没有uv包,直接pip install uv), 再安装相关依赖,以上miner的环境就配置好了

cd MinerU
pip install uv
uv pip install -e .[core] -i https://mirrors.aliyun.com/pypi/simple

运行结果:

(4)环境测试

版本查看:mineru --version;查看所有可用选项:mineru --help

到这里就完成啦!! 完结撒花~~

注:可能有些包下载比较慢,处理方法 多下载几次,或者FQ,或者手动在相应路径下载安装包(可能稍微麻烦,但是也能解决)。

四、文件测试

完成上述步骤后,去文件夹中查看,发现已经下载好了,其中有demo测试文件:

怎么用这个MinerU,其实主要就是这个原理:

这里我直接进入demo文件,在所处理文件的目录下执行命令:

cd demo
cd pdfs
magic-pdf -p demo1.pdf -o ./output

tips: ./ 是指是一个相对路径,它表示当前工作目录(也就是你在终端中运行命令时所在的目录);执行完上述命令后,检查 output 文件夹,有输出文件说明部署成功。

http://www.dtcms.com/a/361860.html

相关文章:

  • (Arxiv-2025)HunyuanCustom:一种面向多模态驱动的定制化视频生成架构
  • Cesium 加载桥梁3DTiles数据时,出现部分区域发暗、部分正常的现象
  • 汽车曲柄连杆机构cad+ea113+设计说明书
  • 零跑汽车8月交付57066台,同比增长超88%
  • 微算法科技(NASDAQ:MLGO)张量网络与机器学习融合,MPS分类器助力顶夸克信号识别
  • 后端Web实战-多表操作员工列表查询
  • Java基础第8天总结(map遍历、Stream流)
  • ES6新特性:JavaScript的进化装备箱[特殊字符]
  • 「日拱一码」076 深度学习——自然语言处理NLP
  • vue动态(自适应定位)表格
  • ansible临时命令实验题
  • 自动化运维-ansible中的管理机密
  • Ansible之playbook剧本
  • Docker镜像安全守护神HarborGuard
  • Shell编程入门指南
  • apollo学习之纳什均衡求解最优策略
  • MySQL 中 InnoDB 引擎的事务隔离级别与“可重复读”隔离级别下的 SQL 编写规范
  • 2025 中国算力大会精彩回顾:算力驱动未来,液冷引领革新
  • 从 Oracle 到 TiDB,通过ETL工具,高效实现数据拉通
  • HarvardX TinyML小笔记2(番外3:数据工程)(TODO)
  • 【C++游记】AVL树
  • 通过 select into outfile / load data infile 进行数据导入导出学习笔记
  • 【网络安全入门基础教程】网络安全就业方向(非常详细)零基础入门到精通,收藏这篇就够了
  • three.js+WebGL踩坑经验合集(10.2):镜像问题又一坑——THREE.InstancedMesh的正反面向光问题
  • 亥姆霍兹线圈和放载流线圈
  • 【SpreadJS V18.2 新特性】Table 与 DataTable 双向转换功能详解
  • SD卡自动检测与挂载脚本
  • React 第七十一节 Router中generatePath的使用详解及注意事项
  • table表格字段明细展示
  • 【前端教程】ES6 Promise 实战教程:从基础到游戏案例