当前位置: 首页 > news >正文

【MinerU】可本地部署的PDF解析器

文章目录

      • 安装
      • 简单测试

把pdf转换为markdown

安装

github官网

linux版安装

安装环境:

conda create -n MinerU python=3.10
conda activate MinerU
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

从hugginface下载模型

插播:
snapshot_download会有一个默认下载位置。如果要修改,请参考修改默认下载位置
export HF_HOME=“目标地址”
export MODELSCOPE_CACHE=“目标地址”

pip install huggingface_hub
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models_hf.py -O download_models_hf.py
python download_models_hf.py

下载模型成功后会输出配置路径:/home/ztshao/magic-pdf.json

简单测试

wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/demo/small_ocr.pdf
magic-pdf -p small_ocr.pdf -o ./output

相关文章:

  • HCIP-6 DHCP
  • 软考 中级软件设计师 考点知识点笔记总结 day08 算法设计与分析
  • 设计模式 Day 1:单例模式(Singleton Pattern)详解
  • 《Operating System Concepts》阅读笔记:p495-p511
  • argparse的使用
  • 【前端】【React】第四章:深入理解 React Router 及前端路由管理
  • 使用 mpstat 与 stress-ng 进行 CPU 性能监控
  • 从0到1的数据结构教程——深入思考动态数组
  • 记录一下最近参与实习 外包 社招流程里的一些感悟
  • Java EE(18)——网络原理——应用层HTTP协议
  • 内网渗透-网络分离免杀
  • git --- cherry pick
  • 深入解析C++模板:从基础到高级应用
  • AI Agent开发大全第十五课-零售智能导购Agent的代码实现
  • Nginx RTMP 处理模块 (ngx_rtmp_handler.c) 详细分析
  • 1371. 货币系统-dp背包问题
  • Oracle数据库数据编程SQL<3.4 PL/SQL 自定义函数>
  • HarmonyOSNext_API16_Tabs组件
  • 架构师面试(二十三):负载均衡
  • Spring AI 实现 STDIO和SSE MCP Server
  • wordpress登录链接/湖南seo排名
  • 网站开发服务转包合同范本/怎么看百度指数
  • 怎么用ps做网站/跨境电商
  • 做电影网站的软件/seminar
  • 宝塔如何添加ip域名做网站/国内做seo最好公司
  • 济南专业网站推广服务热线/香港百度广告