当前位置: 首页 > news >正文

SMARTGRAPHQA —— 基于多模态大模型的PDF 转 Markdown方法和基于大模型格式校正方法

一个基于 Python 的工具,利用多模态大模型(MLLM)将 PDF 文档转换为结构清晰、格式准确的 Markdown 文件。支持图像提取、Base64 编码、分段保存和可选的内容校正功能,适用于长文档的高精度转换。


代码连接:点击这里

📌 主要功能

  • PDF 转图像:使用 PyMuPDFfitz)将每页 PDF 高清渲染为图像。
  • 图像转 Markdown:通过多模态大模型(如 Qwen-VL)识别图像内容并生成结构化 Markdown。
  • 断点续存机制:每处理 N 页自动保存一次,防止程序中断导致前功尽弃。
  • 图像导出选项:可选择将 PDF 页面保存为 JPG 图像用于调试或归档。
  • Markdown 内容校正:支持使用上下文信息对生成内容进行修订,提升连贯性与格式一致性。
  • 灵活提示词配置:可通过模板或自定义 prompt 控制模型行为。
  • 指定页码范围:支持只处理 PDF 的某一部分页面。
  • 双模式修订:可选择使用 MLLM 多模态模型或纯语言模型(LLM)进行内容修订。

效果图

在这里插入图片描述

🧰 项目结构

确保项目结构如下:

SmartGraphQA/
├── Models/
│   ├── vision_models.py      # 多模态模型封装
│   └── LLM_Models.py         # 语言模型封装
├── ExtraTools/
│   └── extractDocument/
│       ├── extractPrompt.py  # 提示词模板
│       └── Pdf2Img2Md.py  # 本工具主文件

🚀 使用示例

from ExtraTools.extractDocument.PDFToMarkdownConverter import PDFToMarkdownConverterpdf_file = "xxx.pdf"
output_folder 
http://www.dtcms.com/a/366733.html

相关文章:

  • Unity之安装教学
  • GcWord V8.2 新版本:TOA/TA字段增强、模板标签管理与PDF导出优化
  • 无需任何软件禁用 10 年 windows 更新
  • ArcGIS答疑-如何消除两张栅格图片中间的黑缝
  • 《D (R,O) Grasp:跨机械手灵巧抓取的机器人 - 物体交互统一表示》论文解读
  • 零售消费企业的数字化增长实践,2025新版下载
  • 三目摄像头 是一种配备三个独立摄像头模块的视觉系统
  • 苍穹外卖Day9 | 用户端、管理端接口功能开发、百度地图解析配送范围
  • 算法之二叉树
  • 不用服务器也能监控网络:MyIP+cpolar让中小企业告别昂贵方案
  • Wisdom SSH 是一款集成了强大 AI 助手功能的 SSH 工具,助你高效管理服务器。
  • 以OWTB为核心的三方仓运配一体化平台架构设计文档V0.1
  • 【软件测试】第1章 认识测试
  • Qt实现2048小游戏:看看AI如何评估棋盘策略实现“人机合一
  • OPENCV复习第二期
  • .NET GcPDF V8.2 新版本:人工智能 PDF 处理
  • Lucene 8.7.0 版本的索引文件格式
  • 学习资料1(粗略版)
  • android View详解—自定义ViewGroup,流式布局
  • Android 项目:画图白板APP开发(三)——笔锋(多 Path 叠加)
  • MySQL主从复制之进阶延时同步、GTID复制、半同步复制完整实验流程
  • Html重绘和重排
  • 25高教社杯数模国赛【C题国一学长思路+问题分析】
  • 观测云产品更新 | LLM 监测、查看器、事件中心、监控等
  • void*指针类型转换笔记
  • SpringBoot中 Gzip 压缩的两种开启方式:GeoJSON 瘦身实战
  • k8s基础(未完待续)
  • 拜占庭攻击与投毒攻击
  • Linux编写shell脚本,输入多个原文件名和新文件名,一次对多个文件重命名
  • 2025亚马逊卖家防恶搞指南:揪出恶意套路,3招守住店铺安全