MinerU2.5 windows 本地部署
一、环境准备
1. 检查系统环境
- 无需检查CUDA和GPU(CPU版本无需NVIDIA显卡),直接进行下一步。
2. 创建并激活虚拟环境
# 方案一:默认路径创建Python 3.10环境
conda create -n mineru python=3.10 # 创建环境
conda activate mineru # 激活环境(命令行前出现"(mineru)"即为成功)# 方案二:自定义路径(适合C盘空间不足)
conda create --prefix=自定义路径\mineru python=3.10 # 替换为实际路径
conda activate 自定义路径\mineru
二、安装MinerU CPU版本
-
安装包管理工具:
pip install uv
-
清理可能的旧版本(防止冲突):
pip uninstall mineru -y
-
安装MinerU核心组件:
uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple
-
安装CPU版本的PyTorch(无需CUDA支持):
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cpu
三、验证安装
执行以下命令,能正常输出版本和帮助信息即安装成功:
mineru --version # 查看版本
mineru --help # 查看帮助
四、下载模型文件
自动下载所需模型(约8-12GB,首次下载耗时较长,失败可重试):
mineru-models-download --model_type all
五、功能测试(CPU模式)
1. 准备测试文件
mkdir test_pdfs # 创建测试文件目录(存放PDF)
mkdir test_output # 创建输出目录
将待测试的PDF文件放入test_pdfs
目录。
2. 执行测试(CPU专用命令)
- 快速模式(推荐):
mineru -p ./test_pdfs/your_file.pdf -o ./test_output/ --backend pipeline --device cpu
- 高精度模式:
mineru -p ./test_pdfs/your_file.pdf -o ./test_output/ --backend vlm-transformers --device cpu
- 批量处理:
mineru -p ./test_pdfs/ -o ./test_output/ --backend pipeline --batch-size 4 --device cpu
六、启动Web界面
- 确保已激活环境:
conda activate mineru
- 启动Web服务(默认端口8080):
mineru-gradio --server-port 8080
- 浏览器访问:
http://localhost:8080
即可使用图形界面上传PDF解析。
注意事项
- 每次使用前需通过
conda activate mineru
激活环境。 - CPU版本速度较慢,大文件建议优先使用
--backend pipeline
(快速模式)。 - 若端口被占用,可更换端口(例如
mineru-gradio --server-port 7860
)。