当前位置: 首页 > news >正文

最新PDF转markdown软件MonkeyOCR整合包,文档图片解析工具

MonkeyOCR是上个月刚发布的一款文档解析工具,可以将PDF文档或图片识别转换为markdown格式文件。官方测试显示性能极佳。我基于当前最新版制作了免安装一键启动整合包,支持批量操作,并降低了显卡要求。

MonkeyOCR官方介绍

MonkeyOCR 采用结构-识别-关系 (SRR) 三重范式,简化了模块化方法的多工具流程,同时避免了使用大型多模式模型进行全页文档处理的低效率。

  1. 与基于流水线的方法MinerU相比,我们的方法在九种类型的中英文文档上平均提高了5.1%,其中公式提高了15.0%,表格提高了8.6%。
  2. 与端到端模型相比,我们的 3B 参数模型在英文文档上取得了最佳平均性能,优于 Gemini 2.5 Pro 和 Qwen2.5 VL-72B 等模型。
  3. 对于多页文档解析,我们的方法达到了每秒 0.84 页的处理速度,超过了 MinerU(0.65)和 Qwen2.5 VL-7B(0.12)。

MonkeyOCR整合包使用说明

将网盘内的软件压缩包下载到本地电脑上并解压。双击【启动软件.exe】

选择待处理文件,或是将文件或文件夹鼠标左键按住拖动到软件窗口内释放。

输入文件路径就处理文件,输入文件夹路径就处理文件夹内所有pdf文档

【组大小】按特定分组大小对输入路径(一个目录)中的图像进行分组解析

【nums】这是我自己添加的一个参数,因为原应用用起来有些问题,这个主要是增加对低端显卡的支持,如果显卡为20X6G等低端显卡,运行报错的话尝试设置为1.如果显卡为40X高端大显存显卡可尝试增大该值,会影响处理速度。如果软件没有报错的话建议保持默认即可。

【单任务】单任务识别,如识别文本、公式、表格,(仅输出 Markdown 格式)

【输出单页面】解析 PDF 并按页面拆分结果

默认只输入待处理文件和保存位置即可,没有必要的话其它设置可不用管。

软件支持批量操作,输入文件夹路径或是将文件夹拖入软件窗口即可。

视频教程及效果演示:

注意事项

未测试最低配置要求,建议英伟达显卡显存不低于6G,如果报错:No enough gpu memory for runtime。则需要更多显存

软件只支持windows 10或11

软件运行路径中不要有非英文字符及空格,待处理文件同样注意

PDF转MD软件MonkeyOCR整合包下载链接

夸克网盘分享

http://www.dtcms.com/a/265797.html

相关文章:

  • 深度解析:Java内部类与外部类的交互机制
  • odoo-057 pgadmin 登录忘记密码
  • 【实时Linux实战系列】实时以太网与 TSN 基础
  • ARM单片机启动流程(二)(详细解析)
  • UDP服务器主要是指什么意思?
  • 提升自动驾驶导航能力:基于深度学习的场景理解技术
  • Centrifugo 深度解析:构建高性能实时应用的开源引擎
  • RocketMQ-Dashboard页面报Failed to fetch ops home page data错误
  • 车载交换机动态MAC学习和静态MAC绑定如何获取MAC地址表
  • BitsAndBytesConfig量化及注意事项
  • 明远智睿H618:开启多场景智慧生活新时代
  • 代码随想录打卡第五天
  • TinyWebserver学习(8)-定时器
  • 深度解析:venv和conda如何解决依赖冲突难题
  • 使用netstat与grep命令结合批量查找特定内容
  • Class3图像分类数据集代码
  • 数学建模_时间序列
  • CTF Web PHP弱类型与进制绕过(过滤)
  • 【云计算】企业项目 策略授权
  • 网络层:ip协议 与数据链路层
  • C++反射之获取可调用对象的详细信息
  • 《Spring 中上下文传递的那些事儿》Part 2:Web 请求上下文 —— RequestContextHolder 与异步处理
  • 低代码实战训练营教学大纲 (10天)
  • Linux之Socket 编程 UDP
  • 自然光实时渲染~三维场景中的全局光照
  • osg加入实时光照SilverLining 天空和3D 云
  • 租车小程序电动车租赁小程序php方案
  • Flutter 3.29+使用isar构建失败
  • 创客匠人视角:知识变现与创始人 IP 打造的破局之道
  • centos7源码编译安装python3