当前位置: 首页 > news >正文

PDF 中提取数学公式

✅ 方法一:使用 doc2x extract_formula_imgs + Pix2Text 一键运行脚本(自动提取+识别)

👉 适合你如果用 Python 的话,只需要运行一段脚本即可:

✅ 🔁 一步搞定脚本(仅需安装一次)

pip install doc2x[pix2text] -i https://pypi.tuna.tsinghua.edu.cn/simple 

🧠 然后运行这段代码即可完成整个流程:

from doc2x.extract_formula import extract_formula_imgs
from pix2text import Pix2Text
from PIL import Image
import os

pdf_path = "你的论文.pdf"
output_dir = "formulas"
extract_formula_imgs(pdf_path, output_dir, dpi=300)  # 步骤1:提取公式图像

p2t = Pix2Text()  # 步骤2:初始化模型

for fname in sorted(os.listdir(output_dir)):  # 步骤3:公式识别
    if fname.endswith(".png"):
        img_path = os.path.join(output_dir, fname)
        latex = p2t(Image.open(img_path))
        print(f"{fname} → {latex}")

✅ 方法二:纯命令行简化(适合写在 Shell 脚本里)

如果你不想写 Python 脚本,也可以直接用命令行运行:

doc2x extract-formula-imgs 你的论文.pdf --out-dir formula_imgs pix2text formula_imgs/*.png --out output.txt

这样你能直接把所有 LaTeX 结果写入 output.txt


✅ 方法三:在线平台(无需安装,但受限)

若你不想安装环境,可以试试:

  • Mathpix Snip

    • 免费额度有限,每天10~20张图

    • 拍照或拖图片即可生成 LaTeX

  • KaTeX – The fastest math typesetting library for the web

    • 只适合展示,不适合识别


✅ 推荐组合方式(最快速+省心)

方式特点推荐人群
方法一(Python)全自动、最灵活、可批量识别研究人员,熟悉代码
方法二(命令行)零代码配置,更直观教师、工程师、懒得写脚本
方法三(在线)零配置,适合小量公式仅偶尔处理,数量少的人

相关文章:

  • 通过安装Windows 11英文版 解决组件问题解决中文版中无法修复组件的问题
  • AI前端组件库Ant DesIgn X
  • Cribl 新建Datatype
  • 人工智能 和 线性代数
  • Skyeye 云智能制造办公系统 - 云校园 VUE 版本 v3.15.16 发布
  • C++11QT复习 (十五)
  • Elixir语言的移动应用安全
  • 谈谈我所了解的hash
  • 哑铃图:让数据对比一目了然【Dumbbell Chart】
  • Java【多线程】(7)常见的锁策略
  • 【S32M244 RTD200P04 LLD篇8】S32M244 PWM ADC LLD demo
  • (蓝桥杯)动态规划蓝桥杯竞赛指南:动态规划解决最少钞票数问题(超详细解析+代码实现)
  • LabVIEW 开发如何降本增效
  • 数据库分表算法详解:原理、实现与最佳实践
  • FPGA状态机设计:流水灯实现、Modelsim仿真、HDLBits练习
  • FogFL: Fog-Assisted Federated Learning for Resource-Constrained IoT Devices
  • 车载联网终端4G汽车TBOX介绍定义与概述
  • Oracle迁移翻车,数据校验没做好...
  • 前端工具方法整理
  • Redis持久化之AOF
  • 小米手机做网站服务器/常见的搜索引擎有哪些?
  • 关于网站建设调查问卷/信息流广告代理商排名
  • 开个小网站要怎么做的/惠州百度seo找谁
  • wordpress判断是文章否有上一篇/下一篇文章/seo优化广告
  • 网站开发包含网站维护吗/网络黄页平台网址有哪些
  • 网站续费通知/google网页版