当前位置: 首页 > news >正文

借助于llm将pdf转化为md文本

pdf转化为md格式后,意味着非结构化文本转为结构化文本,能清晰定位大标题、子标题,图表。

方便后续处理,因为llamaindex和langchain能更有效切分md类文本,避免信息丢失。

1)读取pdf为txt

读取pdf,并使用RecursiveCharacterTextSplitter去尝试分块,一般情况下效果不好

pdf文本暂时表示recur_text

from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitterfrom pypdf import PdfReader
# 读取 PDF 文件
pdf_path = 'docs/word.pdf'
reader = PdfReader(pdf_path)
recur_text = ''
for page in reader.pages:recur_text += page.extract_text().strip() + "\n\n"recur_splitter = RecursiveCharacterTextSplitter(separators=["。"],chunk_size = 512,chunk_overlap  = 128
)
recur_docs = recur_splitter.create_documents([recur_text])

2)使用llm将txt转化为md

qwen或deepseek小一点的LLM不能完成这个任务,deepseek-r1完整版本可以。

prompt示例如下

# 示例调用
prompt = """
请将以下合同转化为md格式。
---
{}
""".format(recur_text)

若recur_text太长,需要切分后分批调用。

另外一种方式,就是将pdf先转化为图谱,在调用qwen2.5-vl模型解析图片输出md5文档。

reference

---

qwen2.5vl-pdf2md

https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/document_parsing.ipynb

olmocr

https://github.com/allenai/olmocr

六个开源的PDF转Markdown项目

https://zhuanlan.zhihu.com/p/711487482

llm-parse

https://github.com/tanchangsheng/llm-parse

http://www.dtcms.com/a/308024.html

相关文章:

  • PDF源码解析
  • 数据结构第4问:什么是栈?
  • CUDA系列之CUDA安装与使用
  • freeRTOS 消息队列
  • Cesium 快速入门(三)Viewer:三维场景的“外壳”
  • 【MySQL】MySQL大偏移量查询优化方案
  • 若依框架-前端二次开发快速入门简述
  • [硬件电路-109]:模拟电路 - 自激振荡器的原理,一种把直流能量转换成交流信号的装置!
  • Linux软件包管理器深度解析:从概念到实战
  • React开发依赖分析
  • TRAE 软件使用攻略
  • 快速搭建Node.js服务指南
  • python制作的软件工具安装包
  • c# net6.0+ 安装中文智能提示
  • 前端框架Vue3(二)——Vue3核心语法之OptionsAPI与CompositionAPI与setup
  • 超体积指标(Hypervolume Indicator,S 度量)详析
  • 【JMeter】性能测试脚本录制及完善
  • 辐射源定位方法简述
  • 【BUUCTF系列】[HCTF 2018]WarmUp1
  • 网络编程-IP
  • 计算机网络:什么是光猫
  • Hyperbrowser MCP:重新定义网页抓取与浏览器自动化的AI驱动工具
  • Solr升级9.8.0启动异常UnsupportedOperationException known Lucene classes
  • Tauri vs Electron 的全面对比
  • 生产管理升级:盘古IMS MES解锁全链路可控可溯,激活制造效率
  • LCM中间件入门(2):LCM核心实现原理解析
  • 牛客练习赛142 第四次忍界大战 并查集
  • 永磁同步电机无速度算法--直流误差抑制自适应二阶反推观测器
  • Gemini Fullstack LangGraph Quickstart(DeepSeek+Tavily版本)
  • 【React】diff 算法