当前位置：首页 > news >正文

python 提取PDF文字

news 2025/11/16 10:35:39

使用pdfplumber，不能提取扫描的pdf和插入的图片。

import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字

在这里插入图片描述

http://www.dtcms.com/a/8623.html

相关文章：

django自定义后端过滤

【精选】网络安全大厂面试题 2.0

物联网在智慧景区中的应用：提升游客体验与运营效率

中国农业无人机行业市场现状分析与投资前景预测研究报告

This dependency was not found解决方法

大数据之Flink优化

C 标准库 - ＜stdlib.h＞

抽象的java

电路设计（28）——交通灯控制器的multisim仿真

时间获取、文件属性获取 2月20日学习笔记

【MySQL】数据类型——MySQL的数据类型分类、数值类型、小数类型、字符串类型

C# 实现网页内容保存为图片并生成压缩包

VoIP（Voice over Internet Protocol 基于IP的语音传输）介绍（网络电话、ip电话）

[Angular 基础] - 自定义指令，深入学习 directive

【Java】类与对象（实验二）

Meta AI | 指令回译：如何从大量无标签文档挖掘高质量大模型训练数据？

数据分析Pandas专栏---第一章＜数据清洗＞

14：00面试，14：06就出来了，问的问题过于变态了。。。

创建者模式（Builder Pattern）：构造复杂对象的通用解决方案

Maven - 代码混淆proguard-maven-plugin vs 代码加密classfinal

【Docker】Linux主机部署Docker

【Python】遍历dataframe，将符合条件的row，放入新的dataframe

如何写新闻软文宣传考核稿，媒体发布后效果作用是什么

「连载」边缘计算（十八）02-21：边缘部分源码（源码分析篇）

【JGit】分支管理实践

我为什么不喜欢关电脑？

【C++】类与对象—— 初始化列表、static 静态成员、

Zookeeper特性与节点数据类型详解

枚举类（enum）

Jenkins使用遇到的一些问题