当前位置: 首页 > wzjs >正文

网站流量统计代码可以用javascript实现么百度搜索竞价推广

网站流量统计代码可以用javascript实现么,百度搜索竞价推广,怎么做苹果手机网站,网站设计师主要做什么在 Python 中读取 PDF 文档是实现文档自动化、内容分析和数据提取的基础操作之一。无论你处理的是合同、报告、发票,还是科研论文,能够通过代码访问 PDF 内容,不仅能节省时间,还能带来更高效的处理流程。 要在 Python 中准确提取…

在 Python 中读取 PDF 文档是实现文档自动化、内容分析和数据提取的基础操作之一。无论你处理的是合同、报告、发票,还是科研论文,能够通过代码访问 PDF 内容,不仅能节省时间,还能带来更高效的处理流程。

要在 Python 中准确提取 PDF 的文本、表格、图像和元数据,一个稳定、功能完善的 PDF 操作库是关键。本文将介绍如何使用 Spire.PDF for Python 实现用 Python 读取 PDF 文档。该库提供简单易用、功能强大的API,无需依赖第三方工具。

Spire.PDF for Python 

配置 Python 读取 PDF 开发环境

Spire.PDF for Python 是一款功能全面的 PDF 读取库,支持通过 Python 代码提取 PDF 中的文本、表格、图像和文档信息。其主要特点包括:

  • 支持从磁盘或内存加载 PDF
  • 可读取文本、表格、图像和元数据
  • 无需依赖外部工具
  • 对结构化数据的识别精准
  • 提供免费版本供试用

非常适合希望快速集成 PDF 数据读取功能的开发者。

使用 pip 安装 Spire.PDF for Python:

pip install spire.pdf

或安装适用于轻量任务的 Free Spire.PDF for Python:

pip install spire.pdf.free

在 Python 中加载 PDF 文档

在读取 PDF 内容之前,需先将其加载到内存中。Spire.PDF 支持从文件路径或内存字节流加载文档,非常适用于处理网页上传或 API 返回的 PDF 数据。

从文件路径加载

使用 PdfDocument.LoadFromFile() 方法从本地读取 PDF 文件:

from spire.pdf import PdfDocument# 创建一个 PdfDocument 实例
pdf = PdfDocument()
# 加载一个 PDF 文档
pdf.LoadFromFile("sample.pdf")

从内存字节加载

如果不希望将文件保存到磁盘,可以先读取字节数据,并使用 Stream 对象加载:

from spire.pdf import PdfDocument, Stream# 将 PDF 文件读取为字节数组
with open("sample.pdf", "rb") as f:byte_data = f.read()# 使用字节数组创建一个流对象
pdfStream = Stream(byte_data)
# 使用流对象创建一个 PdfDocument 实例
pdf = PdfDocument(pdfStream)

用 Python 读取 PDF 中的文本

提取 PDF 中的文本内容是最常见的需求之一。Spire.PDF 提供简单方法,可获取整篇文档或指定页面中的所有可见文本。

读取 PDF 文档所有文本

遍历每一页,使用 PdfTextExtractor.ExtractText() 提取内容:

from spire.pdf import PdfDocument, PdfTextExtractor, PdfTextExtractOptions# 创建一个 PdfDocument 实例
pdf = PdfDocument()
# 加载一个 PDF 文档
pdf.LoadFromFile("sample.pdf")all_text = ""
# 遍历每一页
for pageIndex in range(pdf.Pages.Count):page = pdf.Pages.get_Item(pageIndex)# 创建一个 PdfTextExtractor 实例text_extractor = PdfTextExtractor(page)# 配置提取选项options = PdfTextExtractOptions()options.IsExtractAllText = Trueoptions.IsSimpleExtraction = True# 从当前页面提取文本all_text += text_extractor.ExtractText(options)# 打印提取到的全部文本
print(all_text)

Python 提取 PDF 所有文本示例

提取 PDF 页面指定区域的文本

如只需获取页面中某一特定区域的文本,可通过设置坐标区域实现:

from spire.pdf import RectangleF, PdfDocument, PdfTextExtractor, PdfTextExtractOptions# 加载 PDF 文件
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")# 获取第一页
page = pdf.Pages.get_Item(0)
# 创建一个 PdfTextExtractor 实例
textExtractor = PdfTextExtractor(page)
# 设置提取区域,通过配置 PdfTextExtractOptions
options = PdfTextExtractOptions()
area = RectangleF.FromLTRB(0, 200, page.Size.Width, 270)  # x, y, width, height
options.ExtractArea = area
options.IsSimpleExtraction = True# 从指定区域提取文本
text = textExtractor.ExtractText(options)
print(text)

Python 从特定 PDF 页面区域提取文本示例

用 Python 读取 PDF 表格数据

PDF 中的表格广泛用于财务、账单等场景。借助 Spire.PDF 提供的表格提取器,你可以精准读取页面中的表格内容。

from spire.pdf import PdfDocument, PdfTableExtractor# 加载 PDF 文件
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")# 创建一个 PdfTableExtractor 实例
table_extractor = PdfTableExtractor(pdf)
# 从第一页提取表格
tables = table_extractor.ExtractTable(0)
for table in tables:# 获取行数和列数row_count = table.GetRowCount()column_count = table.GetColumnCount()# 遍历每一行for i in range(row_count):table_row = []# 遍历每一列for j in range(column_count):# 获取单元格文本cell_text = table.GetText(i, j)table_row.append(cell_text)print(table_row)

PDF 表格提取效果图 Python

用 Python 提取 PDF 中的图像

PDF 文件常含有徽标、插图或扫描图像。Spire.PDF 支持提取并保存这些嵌入图像,方便后续使用或归档。

from spire.pdf import PdfDocument, PdfImageHelper# 加载 PDF 文件
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")# 获取第一页
page = pdf.Pages.get_Item(0)# 创建一个 PdfImageHelper 对象
image_helper = PdfImageHelper()
# 获取页面上的图像信息
images_info = image_helper.GetImagesInfo(page)
# 将页面中的图像保存为图像文件
for i in range(len(images_info)):images_info[i].Image.Save("output/Images/image" + str(i) + ".png")

Python 提取 PDF 图像效果图

获取 PDF 元数据(标题、作者等)

你可以通过 Spire.PDF 获取文档的元数据信息,如标题、作者、主题和关键词等,有助于文档管理与归档。

from spire.pdf import PdfDocument# 加载 PDF 文件
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")# 获取文档属性
properties = pdf.DocumentInformation
print("标题: " + properties.Title)
print("作者: " + properties.Author)
print("主题: " + properties.Subject)
print("关键词: " + properties.Keywords)

使用 Python 获取 PDF 元数据示例

常见问题答疑

Python 能读取 PDF 文件吗?

可以。Spire.PDF for Python 提供了读取文本、提取表格、图像和元数据的完整 API,支持结构化内容的精准解析。

能在 Jupyter Notebook 中使用 Spire.PDF 吗?

当然可以。只需通过 pip 安装,就能在 Jupyter Notebook 中调用 API 读取 PDF 文件、提取文本与图像等内容。

如何提取 PDF 文本?

加载文档后,使用 PdfTextExtractor.ExtractText() 方法遍历每一页即可提取所有可见文本。

可以不保存文件直接读取 PDF 吗?

可以。通过 LoadFromStream() 方法可直接读取字节数据,非常适合处理网页上传或接口返回的临时文件。

总结

借助 Spire.PDF for Python,你可以轻松完成 PDF 文件的读取和处理任务,包括文本、表格、图像和元数据的提取,还可将 PDF 转换为可分析的文本内容,是实现数据采集与文档自动化的理想方案。

http://www.dtcms.com/wzjs/524128.html

相关文章:

  • 网站建设价位引流推广是什么意思
  • 甘肃建设厅网站注入电子商务营销的概念
  • 国外客户推广网站网络营销的市场背景
  • 怎么做收费视频网站可以营销的十大产品
  • 公司简介模板免费使用seo薪资seo
  • 荔湾区做网站吴中seo页面优化推广
  • 广州微信网站建设平台网络营销和网络推广有什么区别
  • 酒店网站建设策划书怎么写整站优化代理
  • 做网站设计工作的报告书怎样弄一个自己的平台
  • 国内用JSP做的网站有哪些四川seo整站优化费用
  • wordpress主题ftp失败徐州百度seo排名优化
  • wordpress主题 四亩地烟台seo
  • 周口学做网站湖南网站seo推广
  • 江北网站建设价格优化关键词的方法有哪些
  • 哪些网站可以做文字链广告seo应用领域有哪些
  • 云南网站建设维修公司哪家好百度人气榜排名
  • 宁波市镇海建设交通局网站首页今日国内新闻最新消息
  • 学做软件的网站营销软件哪个好
  • 网站开发相关书籍资料百度手机助手下载2021新版
  • 无锡网站建设服务公司app运营需要做哪些
  • 怎么做网站内部搜索功能网络营销与策划实践报告
  • 建筑设计网站大全网站关键词林俊杰在线听免费
  • 网站主要内容包括什么软文发布平台媒体
  • 网站选择理由描述完整的网页设计代码
  • 杭州网站建设排名宣传渠道和宣传方式有哪些
  • 做网站建设公司企业西安百度竞价推广
  • 网站建设功能设计关键词优化的方法有哪些
  • 延吉做网站页面优化的方法有哪些
  • 温州网页网站制作宁德市蕉城区疫情
  • 加强门户网站建设方案网店买卖有哪些平台