当前位置: 首页 > news >正文

PDF 转 Markdown

本地可部署的模型

 Marker

Marker 快速准确地将文档转换为 markdown、JSON 和 HTML。

  • 转换所有语言的 PDF、图像、PPTX、DOCX、XLSX、HTML、EPUB 文件
  • 在给定 JSON 架构 (beta) 的情况下进行结构化提取
  • 设置表格、表单、方程式、内联数学、链接、引用和代码块的格式
  • 提取和保存图像
  • 删除页眉/页脚/其他工件
  • 可使用您自己的格式和逻辑进行扩展
  • (可选)使用 LLM 提高准确性
  • 适用于 GPU、CPU 或 MPS

https://github.com/VikParuchuri/marker

Surya

Surya 是一个文档 OCR 工具包,它做到了:

  • 90+ 种语言的 OCR,与云服务相比具有优势
  • 任何语言的行级文本检测
  • 布局分析(表格、图像、标题等检测)
  • 读取顺序检测
  • 表识别(检测行/列)
  • LaTeX OCR

https://github.com/VikParuchuri/surya

MinerU

MinerU 是一种将 PDF 转换为机器可读格式(例如 markdown、JSON)的工具,可以轻松提取为任何格式。 MinerU 诞生于 InternLM 的预训练过程中。我们专注于解决科学文献中的符号转换问题,希望为大模型时代的技术发展做出贡献。

https://github.com/opendatalab/MinerU

需API调用的模型工具

llamaPaser

LlamaCloud

使用样例:

pip install dotenv

pip install llama_parse

pip install llama-index-llms-openai

在 modelDownload.py 文件所在的目录创建一个名为 .env 的文件,并在其中添加以下内容:

LLAMA_CLOUD_API_KEY='llamapaser API密钥'
OPENAI_API_KEY = 'openai APkey'

配置好环境后运行代码: 

# 需要LLAMA_CLOUD_API_KEY
from dotenv import load_dotenv
load_dotenv()   # LlamaParse PDF reader for PDF Parsing
from llama_parse import LlamaParse
documents = LlamaParse(result_type="markdown").load_data("90-文档-Data/黑悟空/黑神话悟空.pdf"
)
print(documents)from llama_index.core.node_parser import MarkdownElementNodeParser
node_parser = MarkdownElementNodeParser()
nodes = node_parser.get_nodes_from_documents(documents)print(nodes)

效果如下: 

相关文章:

  • java 实现excel文件转pdf | 无水印 | 无限制
  • LangChain【6】之输出解析器:结构化LLM响应的关键工具
  • 佰力博科技与您探讨材料介电性能测试的影响因素
  • Mysql中select查询语句的执行过程
  • 埃文科技智能数据引擎产品入选《中国网络安全细分领域产品名录》
  • MySQL基础(三)DQL(Data Query Language,数据查询语言)
  • vue+elementui 网站首页顶部菜单上下布局
  • 七、数据库的完整性
  • keysight是德科技N9923A网络分析仪
  • 【NLP中向量化方式】序号化,亚编码,词袋法等
  • vb监测Excel两个单元格变化,达到阈值响铃
  • Excel 发现此工作表中有一处或多处公式引用错误。请检查公式中的单元格引用、区域名称、已定义名称以及到其他工作簿的链接是否均正确无误。弹窗
  • ArcGIS安装时输入localhost不被识别
  • Vue在线预览excel、word、ppt等格式数据。
  • 96. 2017年蓝桥杯省赛 - Excel地址(困难)- 进制转换
  • Halcon提取车牌字符
  • 浏览器工作原理05 [#] 渲染流程(上):HTML、CSS和JavaScript是如何变成页面的
  • Web 架构之缓存策略实战:从本地缓存到分布式缓存
  • PHP语言核心技术全景解析
  • ADI的BF609双核DSP怎么做开发,我来说一说(五)LAN口测试
  • 旅游类网站开发设计报告/百度广告优化师
  • 益阳营销型网站建设/百度推广关键词排名规则
  • 购物网站建设和使用/优化大师电脑版官网
  • 网站开发是无形资产/网站建设优化推广系统
  • wordpress 未分类/windows优化大师的作用
  • 淘宝 客要推广网站怎么做/比较正规的代运营