当前位置: 首页 > news >正文

python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字


在这里插入图片描述

相关文章:

  • django自定义后端过滤
  • 【精选】网络安全大厂面试题 2.0
  • 物联网在智慧景区中的应用:提升游客体验与运营效率
  • 中国农业无人机行业市场现状分析与投资前景预测研究报告
  • This dependency was not found解决方法
  • 大数据之Flink优化
  • C 标准库 - <stdlib.h>
  • 抽象的java
  • 电路设计(28)——交通灯控制器的multisim仿真
  • 时间获取、文件属性获取 2月20日学习笔记
  • 【MySQL】数据类型——MySQL的数据类型分类、数值类型、小数类型、字符串类型
  • C# 实现网页内容保存为图片并生成压缩包
  • VoIP(Voice over Internet Protocol 基于IP的语音传输)介绍(网络电话、ip电话)
  • [Angular 基础] - 自定义指令,深入学习 directive
  • 【Java】类与对象(实验二)
  • Meta AI | 指令回译:如何从大量无标签文档挖掘高质量大模型训练数据?
  • 数据分析Pandas专栏---第一章<数据清洗>
  • 14:00面试,14:06就出来了,问的问题过于变态了。。。
  • 创建者模式(Builder Pattern):构造复杂对象的通用解决方案
  • Maven - 代码混淆proguard-maven-plugin vs 代码加密classfinal