当前位置: 首页 > news >正文

基于rapidocr 的文档解析(pdf转md)工具(已部署)

pdf转md思路

rapidocr paddle版本的报错(onnxruntime解析很慢)

C++ Traceback (most recent call last): No stack trace in paddle, may be caused by external reasons. Error Message Summary: FatalError: Segmentation fault' is detected by the operating system. [Timelnfo: *** Aborted at 1760348604 (unix time) try "date-d @1760348604" if you are using GNU date ***] [Signallnfo: *** SIGSEGV (@0x7fafe0a32000) received by PID 29461 (TID 0x7fb8bbdff700) from PID 18446744073183371264 ***]
C++ 调用栈(按最近调用顺序排列): 在 paddle 中没有出现堆栈跟踪信息,这可能是由外部原因导致的。 错误信息摘要: 致命错误:操作系统检测到“分段错误”。[系统信息:*** 异常终止于 1760348604(UNIX 时间) 请使用 GNU 的 date 命令执行“date -d @1760348604”来查看 ***] [信号信息:*** 发生了 SIGSEGV(0x7fafe0a32000)信号,由进程 ID 29461(线程 ID 0x7fb8bbdff700)从进程 ID 18446744073183371264 发出 ***]

这里是我pdf写md的文件代码的问题,每次调用一页的内存就会增加50MB左右,在top指令可以看到。上升到3G,可能有OOM。

然后针对代码进行了优化。这里的单例复用,每次解析都会调到一次ocr实例,单例复用的代码进行修改,改为进程池,主进程只负责pdf转图像流,子进程负责将图像进行解析流式写入md,然后就可以了

http://www.dtcms.com/a/511820.html

相关文章:

  • Python中 async/await 和传统多线程的区别?
  • 手机网站建设信息wordpress addaction
  • 网站建设接单渠道上海定制建设网站
  • 亮相IROS 2025:傅利叶以开源协同推动具身智能技术迭代
  • Linux中的`fork`函数详解:深入解析
  • 嘉兴建设企业网站wordpress破解key
  • 自然语言处理实战——基于感知机模型的中文文本情感分类
  • 接到一个需求,怎么做性能分析,以及性能优化过程
  • 网站横幅背景图片企业网站不备案会怎么样
  • 网站建设用户需求调查物流公司
  • Leetcode+Java+图论II
  • git空目录处理
  • 自动化办公:用Python操作Excel、Word和PDF
  • 前端V0介绍(Vercel推出的AI前端生成工具)
  • 从 “对话” 到 “证书”:零知识证明的魔法工具箱 —— 让隐私验证走进普通人的数字生活
  • 培训类网站开发做网站需要买服务器
  • 对称树结构:原理、应用与Python实现
  • 4.4数组的基本操作
  • 湘潭网站建设优等磐石网络遨游建站
  • [go 面试] 前端请求到后端API的中间件流程解析
  • Ethernaut Level 13: Gatekeeper One - Gas计算与类型转换
  • 飞凌嵌入式ElfBoard-常用的网络服务的搭建之TFTP服务搭建
  • mybatis-plus的insertBatchSomeColumn方法实现批量插入
  • 上海传媒公司艺人seo项目优化案例分析文档
  • 【论文阅读】DiffusionDrive:截断扩散模型用于端到端自动驾驶
  • 解读Time Model Statistics中的PL/SQL 和 SQL执行时间
  • DDD(一)认识领域驱动设计(DDD的概念、主要架构模型)
  • Spring Boot集成Spring Integration全解析
  • MCP功能与架构详解
  • Spring Boot优雅关闭全解析