当前位置: 首页 > news >正文

【maker-pdf 文档文字识别(包含ocr),安装使用完整教程】

安装环境

conda create -n maker-pdf python=3.12
conda activate marker-pdf
pip install modelscope
pip install marker-pdf -U

下载模型

from modelscope import snapshot_downloadmodel_root = "models"
snapshot_download("Lixiang/marker-pdf", local_dir="models")

开始运行

from marker.converters.pdf import PdfConverter
from marker.models import create_model_dict
from marker.output import text_from_rendered
from surya.settings import settings## 权重地址,很大没GPU的话会很慢
model_root = "models"
settings.MODEL_CACHE_DIR = model_root
for chectpoint in ["LAYOUT_MODEL_CHECKPOINT","DETECTOR_MODEL_CHECKPOINT","OCR_ERROR_MODEL_CHECKPOINT","TABLE_REC_MODEL_CHECKPOINT","RECOGNITION_MODEL_CHECKPOINT",
]:value = getattr(settings, chectpoint)if "s3://" in value:value = value.replace("s3://", "/")setattr(settings, chectpoint, model_root + value)converter = PdfConverter(artifact_dict=create_model_dict(),
)
rendered = converter("test.pdf")
# text = rendered.markdown
text, _, images = text_from_rendered(rendered)
print(text)

相关文章:

  • 论文速读《UAV-Flow Colosseo: 自然语言控制无人机系统》
  • 使用 Akamai 分布式云与 CDN 保障视频供稿传输安全
  • 第二章 2.1 数据存储安全风险之数据存储风险点
  • 视频监控汇聚平台EasyCVR安防小知识:如何通过视频融合平台解决信息孤岛问题?
  • 每日c/c++题 备战蓝桥杯(Cantor 表)
  • AI生态警报:MCP协议风险与应对指南(下)——MCP Host安全
  • 【动手学深度学习】2.4. 微积分
  • AI系统提示词:DeepSeek R1(0528)
  • 基于Python的单斜式ADC建模与仿真分析
  • 【仿生机器人】极具前瞻性的架构——认知-情感-记忆“三位一体的仿生机器人系统架构
  • ubuntu系统安装Pyside6报错解决
  • 大语言模型中的注意力机制详解
  • openssl-aes-ctr使用openmp加速
  • Express教程【001】:Express创建基本的Web服务器
  • 云原生时代 Kafka 深度实践:03进阶特性与最佳实践
  • QNAP MEMOS 域名访问 SSL(Lucky)
  • Kafka多线程Consumer
  • 测试用例篇章
  • Redisson学习专栏(三):高级特性与实战(Spring/Spring Boot 集成,响应式编程,分布式服务,性能优化)
  • 测试用例及黑盒测试方法
  • 英孚做测试的网站/今日热点新闻事件及评论
  • 山东网站seo公司/网站百度百科
  • 凡科网建网站付费链接怎么做/厦门关键词seo排名网站
  • web网站开发工具有哪些/焊工培训心得体会
  • 网络水果有哪些网站可以做/百度公司注册地址在哪里
  • 新手做网站流程/百度官网app