当前位置: 首页 > news >正文

简单使用Marker

简单使用Marker

1 简单介绍

Marker是由Datalab维护的开源项目,它利用了surya的模型进行做的,能够快速准确地将文档转换为Markdown、JSON、分块数据及HTML格式。相对MinerU和Docling文件解析的效果较差,但是解析的速度是较快的,如果考虑速度和性能,可以考虑这个模型。不好的地方除了github没有官方本地部署较完整的文档。

Datalab也维护了Surya,Surya是一款文档OCR工具包,功能包括:支持90多种语言的OCR技术、任意语言的行级文本检测
版面分析(表格、图像、标题等检测)、阅读顺序检测、表格识别(检测行/列)、LaTeX OCR(数学公式)。

# Github地址(没有标准的开发文档)
https://github.com/datalab-to/marker# Surya的Github地址
https://github.com/datalab-to/surya

2 安装环境

安装依赖环境

pip install marker-pdf[full] -i https://pypi.tuna.tsinghua.edu.cn/simple

简单例子

注意:Windows中模型的默认下载路径是“C:\Users\Admin\AppData\Local\datalab”,Admin是我的用户名,此处对应你的用户名。模型大小:4.97G。

# 注意!! 解析的过程不支持多线程和多协程
from marker.converters.pdf import PdfConverter
from marker.models import create_model_dict
from marker.output import text_from_rendereddef test():print(create_model_dict())converter = PdfConverter(artifact_dict=create_model_dict())# 解析图片rendered = converter("E:/temp/test.png")text, _, images = text_from_rendered(rendered)print(text, _, images)# 解析pdfrendered = converter("E:/test/test1.pdf")text, _, images = text_from_rendered(rendered)print(text, _, images)# 解析docxrendered = converter("E:/test/test2.docx")text, _, images = text_from_rendered(rendered)print(text, _, images)if __name__ == '__main__':test()

截图
在这里插入图片描述

http://www.dtcms.com/a/486963.html

相关文章:

  • 网站开发 盈利百度网游排行榜
  • elementUI 表单验证-联动型校验
  • vue2+elementUi实现自定义表格框选复制粘贴
  • Home Assistant-IOT模块
  • R Excel 文件:高效数据处理与可视化分析利器
  • 有做敦煌网站的吗创建网站 英文
  • Vue2项目搭建指南(基于Vue CLI和Webpack)
  • Python基础入门:语法、执行、配置与部署指南
  • 网站建设上传和下载柳州网站虚拟主机销售价格
  • 浙江天奥建设集团网站信息技术网站建设教案
  • 01_机器学习初步
  • C++---向上取整
  • 多字节串口收发IP设计(五)串口模块增加数据位停止位动态配置功能(含源码)
  • 上海网站建设专业公司排名百度搜索app
  • Java 设计模式—— 责任链模式:从原理到 SpringBoot 最优实现
  • Linux中快速部署Minio(基础TLS配置)
  • 大型小说网站开发语言望野博物馆
  • 做早餐烧菜有什么网站零基础搭建网站
  • SAP PCE生产订单组件不能更改物料编码和工厂
  • Aosp14系统壁纸的启动和加载流程
  • 电压源和电流源学习理解
  • 刘洋洋《魔法派对Magic Party》童话重启,温柔守护每颗童心
  • 东莞长安网站设计搞网站开发的程序员属于哪一类
  • 运维领域核心概念的专有名词解释-详解
  • 【AIGC】语音识别ASR:火山引擎大模型技术实践
  • 如何在AutoCAD中加载大型影像文件?
  • 爬虫调试技巧:如何用浏览器开发者工具找接口?
  • Linux 页缓存(Page Cache)与回写(Writeback)机制详解
  • 【NI测试方案】基于ARM+FPGA的整车仿真与电池标定
  • JavaScript将url转为blob和file,三种方法