当前位置: 首页 > wzjs >正文

.net做网站的吗网站请人做的 域名自己注册的 知道网站后台 怎么挂自己的服务器

.net做网站的吗,网站请人做的 域名自己注册的 知道网站后台 怎么挂自己的服务器,做网站建设专业定制,wordpress step2 500如何使用 Python 提取 PDF 文件中的内容 在文档自动化处理、数据提取和信息分析等任务中,从 PDF 文件中提取文本是一项常见需求。PDF 文件通常分为两种类型:基于文本的 PDF 和 包含扫描图像的 PDF。 本文将介绍如何使用 Python 分别提取这两种类型的 P…

如何使用 Python 提取 PDF 文件中的内容

在文档自动化处理、数据提取和信息分析等任务中,从 PDF 文件中提取文本是一项常见需求。PDF 文件通常分为两种类型:基于文本的 PDF包含扫描图像的 PDF

本文将介绍如何使用 Python 分别提取这两种类型的 PDF 内容,并提供完整的代码示例和实用技巧。


一、提取基于文本的 PDF 内容

1. 使用 PyPDF2 提取纯文本

PyPDF2 是一个轻量级但功能强大的库,适合用于读取和提取标准文本型 PDF 中的内容。

安装
pip install PyPDF2
示例代码
import PyPDF2def extract_text_from_pdf(pdf_path):with open(pdf_path, 'rb') as file:reader = PyPDF2.PdfReader(file)text = ""for page in reader.pages:text += page.extract_text()return text# 使用示例
pdf_path = 'example.pdf'
extracted_text = extract_text_from_pdf(pdf_path)
print(extracted_text)

⚠️ 注意:对于格式复杂或字体嵌入的 PDF,某些页面可能无法正确提取文本。


2. 使用 pdfplumber 提取表格和布局复杂的文本

如果你需要提取含有表格、列布局或精确坐标信息的 PDF,pdfplumber 是更合适的选择。

安装
pip install pdfplumber
示例代码
import pdfplumberdef extract_text_from_pdf(pdf_path):with pdfplumber.open(pdf_path) as pdf:text = ""for page in pdf.pages:text += page.extract_text()return text# 使用示例
pdf_path = 'example.pdf'
extracted_text = extract_text_from_pdf(pdf_path)
print(extracted_text)

✅ 特点:支持表格识别、文字坐标定位等功能。


二、提取扫描图像型 PDF 内容(OCR)

对于由扫描图片组成的 PDF 文件,必须借助 光学字符识别(OCR)技术 来提取其中的文字。

1. 安装依赖项

你需要安装 Tesseract OCR 引擎以及对应的 Python 封装库。

Windows:
  • 下载并安装 Tesseract OCR
  • 添加 Tesseract 到系统环境变量(例如路径为 C:\Program Files\Tesseract-OCR\tesseract.exe
  • 安装 Python 库:
pip install pytesseract pillow pdf2image
  • 安装 Poppler(用于将 PDF 转换为图像):
    • 可以从 GitHub - poppler-windows 下载并解压,同样添加到系统 PATH。
Linux / macOS:
sudo apt install tesseract-ocr libpoppler-cpp-dev  # Ubuntu/Debian
brew install tesseract poppler                    # macOS (Homebrew)
pip install pytesseract pillow pdf2image

2. 示例代码:结合 pdf2image + pytesseract 提取扫描 PDF 内容

from pdf2image import convert_from_path
import pytesseract
from PIL import Imagedef extract_text_from_scanned_pdf(pdf_path):# 将 PDF 转换为图像列表images = convert_from_path(pdf_path)extracted_text = ""for image in images:# 对每张图片执行 OCRtext = pytesseract.image_to_string(image)extracted_text += text + "\n"return extracted_text# 使用示例
pdf_path = 'scanned_example.pdf'
text = extract_text_from_scanned_pdf(pdf_path)
print(text)

✅ 说明:该方法会逐页将 PDF 转换为图像,再通过 OCR 提取文字,适用于高质量扫描件。


三、总结与建议

PDF 类型推荐库特点
纯文本型 PDFPyPDF2pdfplumber快速、高效,适合标准 PDF 文档
扫描图像型 PDFpdf2image + pytesseract支持 OCR,适合图像型 PDF,但速度较慢

✅ 建议:

  • 优先判断 PDF 类型:可以尝试用 PyPDF2 提取看看是否有返回内容,若为空则可能是扫描图像。
  • 提高 OCR 准确率:可先对图像进行预处理(如灰度化、二值化),再传给 pytesseract
  • 多语言支持:Tesseract 支持多种语言包,可通过 -l 参数指定语言,如 pytesseract.image_to_string(img, lang='chi_sim') 提取中文。

四、扩展功能推荐

功能工具描述
表格识别camelottabula-py专门用于提取 PDF 中表格数据
PDF 加密破解pikepdf可用于打开加密 PDF 文件(需密码)
PDF 合并与拆分PyPDF2 / pypdf拆分、合并、旋转 PDF 页面
PDF 注释提取pdfminer.six提供底层解析能力,适合高级用途

🔚 结语

无论是处理普通的文本型 PDF 还是扫描图像型 PDF,Python 都提供了丰富的第三方库来帮助我们实现高效的文本提取。掌握这些工具不仅能提升办公效率,还能为数据分析、文档管理、信息自动化等场景打下坚实基础。


📌 如果你正在从事数据工程、自动化脚本开发或文档处理相关的工作,熟练使用这些库将大大增强你的生产力。同时,也可以根据实际需求,结合日志记录、GUI 界面、批量处理等功能进行二次开发。

💬 欢迎留言交流你在项目中使用这些技术的经验,或者你遇到的相关问题,我们一起探讨 Python 文档处理的最佳实践!


文章转载自:

http://RvclkAFp.bsbcp.cn
http://CkecnxYG.bsbcp.cn
http://p683rSB9.bsbcp.cn
http://HhX8yDrw.bsbcp.cn
http://gcstnxYX.bsbcp.cn
http://RhBiobbj.bsbcp.cn
http://yVXmdrHm.bsbcp.cn
http://KhXPnItA.bsbcp.cn
http://KGGythcf.bsbcp.cn
http://xA5F6U6L.bsbcp.cn
http://ieIu0Fk1.bsbcp.cn
http://4A8dL57J.bsbcp.cn
http://oGLAxEvD.bsbcp.cn
http://J410RTMN.bsbcp.cn
http://PBFdbZGt.bsbcp.cn
http://xGxoxZNP.bsbcp.cn
http://tvTtHN98.bsbcp.cn
http://oq70vWP1.bsbcp.cn
http://2dppTrIA.bsbcp.cn
http://I7OXPuZ7.bsbcp.cn
http://p8dnfF5g.bsbcp.cn
http://RR1OhPAp.bsbcp.cn
http://V0njK2mA.bsbcp.cn
http://t0akkVqO.bsbcp.cn
http://ilZglr8g.bsbcp.cn
http://HlcLOOqn.bsbcp.cn
http://VcjyHKkf.bsbcp.cn
http://xerg5dLu.bsbcp.cn
http://WmON2jvo.bsbcp.cn
http://tRASw9Xv.bsbcp.cn
http://www.dtcms.com/wzjs/622151.html

相关文章:

  • 创建网站建设邯郸免费发布信息平台
  • 万网 成品网站山东省住房城乡建设厅网站首页
  • 怎么搭建局域网网站河北中尊建设工程有限公司官方网站
  • 湖南网站建设小公司成交功能网站
  • 河南企业网站优化外包wordpress允许注册
  • 珠海电商网站建设网站dedecms数据库
  • 如何做家教网站赚钱中亿丰建设集团股份有限公司官方网站
  • 铜陵市建设工程管理局网站网络推广方法怎么样
  • 网站seo优化免费手机购物网站设计
  • 怎么做新网站才能被百度收录做微商进哪个网站安全
  • 广州从化网站建设dw5怎样做网站
  • 网站备案承若怎么写wordpress 插件 重置密码
  • 创建网站容易吗电商网站开发过程是什么
  • 什么网站做外链优化好华东建设安装有限公司网站
  • 湖南电子科技网站建设绍兴做网站服务
  • 龙岗坑梓网站建设wordpress 插件破解版
  • alexa全球网站排名什么是互联网公司
  • 阿里巴巴免费做网站吗wordpress客户端linux
  • 泉州企业网站开发ps制作个人网站首页
  • 毕业设计网站建设英文文献网站建设内容策略有哪些
  • 页面简单的网站模板免费下载怎么查看网站建设时间
  • 安徽网站建设怎么样在越南注册公司需要什么条件
  • 专业的公司网站制作服务网站后台文章排版
  • 创客贴设计网站官网滨江网站建设公司
  • seo建设网站做前后端网站教程
  • 免费网站注册comwordpress island
  • 网站方案模板某企业网站建设论文
  • 公司网站建设的要点dw软件怎么下载
  • 阳泉住房和城乡建设部网站wordpress的版本号
  • 英语网站都可以做哪些内容看p站用什么浏览器