当前位置: 首页 > news >正文

python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字


在这里插入图片描述

相关文章:

  • django自定义后端过滤
  • 【精选】网络安全大厂面试题 2.0
  • 物联网在智慧景区中的应用:提升游客体验与运营效率
  • 中国农业无人机行业市场现状分析与投资前景预测研究报告
  • This dependency was not found解决方法
  • 大数据之Flink优化
  • C 标准库 - <stdlib.h>
  • 抽象的java
  • 电路设计(28)——交通灯控制器的multisim仿真
  • 时间获取、文件属性获取 2月20日学习笔记
  • 【MySQL】数据类型——MySQL的数据类型分类、数值类型、小数类型、字符串类型
  • C# 实现网页内容保存为图片并生成压缩包
  • VoIP(Voice over Internet Protocol 基于IP的语音传输)介绍(网络电话、ip电话)
  • [Angular 基础] - 自定义指令,深入学习 directive
  • 【Java】类与对象(实验二)
  • Meta AI | 指令回译:如何从大量无标签文档挖掘高质量大模型训练数据?
  • 数据分析Pandas专栏---第一章<数据清洗>
  • 14:00面试,14:06就出来了,问的问题过于变态了。。。
  • 创建者模式(Builder Pattern):构造复杂对象的通用解决方案
  • Maven - 代码混淆proguard-maven-plugin vs 代码加密classfinal
  • 2025五一档首日电影票房破亿
  • “五一”看什么?这里有一份申城视听指南
  • 北方旱情持续,水利部:大中型灌区春灌总体有保障
  • 中方拟解除对5名欧洲议会议员制裁?外交部:望中欧立法机构相向而行
  • 城市更新·简报│中央财政支持城市更新,倾斜超大特大城市
  • 国家能源局通报上月投诉情况:赤峰有群众反映电费异常增高,已退费