当前位置: 首页 > news >正文

制作京东网站建设好玩的微信小程序游戏排行榜前十名

制作京东网站建设,好玩的微信小程序游戏排行榜前十名,搜索引擎优化的定义,专业设计网址青岛网站开发Pdf文件是我们日常工作中经常会遇到的一种文件格式,对于这种文件的提取 pdfplumber 库可以非常出色的完成处理工作,它是一个纯 Python 第三方库,适合 python 3.x 版本,通常用来查看pdf各类信息,能有效提取文本、表格&…

        Pdf文件是我们日常工作中经常会遇到的一种文件格式,对于这种文件的提取 pdfplumber  库可以非常出色的完成处理工作,它是一个纯 Python 第三方库,适合 python 3.x 版本,通常用来查看pdf各类信息,能有效提取文本、表格,但不支持修改或生成pdf,也不支持对pdf扫描件的处理。下面就出表格、文本和图片的提取三方面进行说明。

1、表格提取:

下面是提取PDF文件内容中的表格,并保存到XLSX文件中,代码如下:

import pdfplumber
from openpyxl import load_workbook
import pandas as pdi=0
with pdfplumber.open("d:\\待提取的PDF文件.pdf") as pdf:print(len(pdf.pages))for page in pdf.pages:tables=page.extract_tables()for table in tables:i=i+1df = pd.DataFrame(table)df.to_excel(f'd:\\output{i}.xlsx', index=False)def readExcels(excelname):alldata = pd.DataFrame()wb = load_workbook(excelname)sheets = wb.sheetnamesfor i in sheets:#print(i)df = pd.read_excel(excelname,sheet_name=i,engine='openpyxl',header=1)alldata = alldata._append(df)

2、文本提取:

下面是提取PDF文件内容中的文字内容,并保存到txt文件中,代码如下:

import os
from pathlib import Path
import pdfplumberdef extract_text(pdf_path):with pdfplumber.open(pdf_path) as pdf:text = ""for page in pdf.pages:text += page.extract_text() + "\n"return text# 使用示例
pdf_path_name = "d:\\待提取PDF文件.pdf"
pdf_dirname = os.path.dirname(pdf_path_name)
extracted_text = extract_text(pdf_path_name)
with open(f'{pdf_dirname}/{Path(pdf_path_name).stem}.txt', 'w', encoding='utf-8') as f:f.write(extracted_text)f.close()
print(f'执行完毕!输出路径:{pdf_dirname}')

3、提取图片:

下面是提取PDF文件内容中的图片,并创建目录保存,代码如下:

import pdfplumber
import os# 定义函数用于提取PDF中的图片并保存
def extract_images_from_pdf(pdf_file, output_folder):# 创建输出文件夹,如果不存在的话if not os.path.exists(output_folder):os.makedirs(output_folder)with pdfplumber.open(pdf_file) as pdf:# 遍历每一页for page_number, page in enumerate(pdf.pages, start=1):print(f'页码:{page.page_number}')print(f'页面宽度:{page.width}')print(f'页面高度:{page.height}')# 获取该页的所有图片images = page.images# 遍历该页的所有图片for idx, image in enumerate(images, start=1):# 获取图片的二进制数据image_data = image['stream'].get_data()# 构建图片文件名image_filename = os.path.join(output_folder, f'image_{page_number}_{idx}.png')# 保存图片到文件with open(image_filename, 'wb') as f:f.write(image_data)print(f'图片已保存至:{image_filename}')# 调用方法
pdf_file = 'd:\\待提取的PDF文件.pdf'
output_folder = 'extracted_images'
extract_images_from_pdf(pdf_file, output_folder)

http://www.dtcms.com/a/592177.html

相关文章:

  • 二级学院网站建设住建网官网
  • 写网站建设的论文wordpress显示加载进度
  • wordpress 修改dns打不开上海seo优化服务公司
  • 自适应h5网站模板wordpress 在线投稿
  • 网站如果不续费会怎样短视频seo代理
  • 交易网站制度建设做网站毕设任务书
  • 怎么免费建立自己网站温州网上商城网站建设
  • 精美网站宁波网站建设详细内容
  • 电影网站制作教程及步骤自适应网站如何做mip网页
  • 网站建设公司 枫子伽叩优化方案物理必修一电子版
  • 旅游网站建设的概念超链接到网站怎么做
  • 公司做网站都咨询哪些问题网站首页设计多少钱
  • 南京网站网站建设app怎么制作多少钱
  • 网站死链存在的问题网页小游戏flash不能正常运行
  • 用 htmi5做网站保定 网站制作
  • 个人网站需要备案网站开发语言什么意思
  • 外贸网站域名赏析免费推广企业网站
  • 小型企业的网站建设论文网站备案 营业执照
  • 选择做网站销售的优势网站的优化方案怎么写
  • 徐汇制作网站哪家好一流的营销型网站建设
  • 企业的网站建设青岛企业建站
  • 桃浦做网站wordpress缓存无法清除缓存
  • 开发网站的成本只用wordpress 主题
  • 哪些做任务可以赚钱的网站摄影网站首页设计
  • 深圳婚庆网站建设关键词爱站网关键词挖掘工具
  • 陕西交通建设集团蓝商分公司网站北京市网站设计-推广公司
  • 建设银行官网站下载地址html5购物网站
  • 广州学做网站企业注册地址查询
  • 建设工程招标投标管理信息网站网站建设论坛排名
  • 学校网站资源库建设和资源上传夺宝网站开发