当前位置: 首页 > wzjs >正文

图书商城网站开发的目的我想做地推怎么找渠道

图书商城网站开发的目的,我想做地推怎么找渠道,中机建设深圳公司,北京装修公司哪家好十大排名使用python写一个PDF文件转换成word 文件 一、前言: 要使用 Python 将 PDF 文件转换成 Word 文件,可以借助PyPDF2库来读取 PDF 文件内容,再使用python-docx库将内容写入 Word 文件。不过,PyPDF2只能处理文本类型的 PDF&#xff…

使用python写一个PDF文件转换成word 文件

一、前言:

要使用 Python 将 PDF 文件转换成 Word 文件,可以借助PyPDF2库来读取 PDF 文件内容,再使用python-docx库将内容写入 Word 文件。不过,PyPDF2只能处理文本类型的 PDF,如果 PDF 是扫描版的(即图像类型),则需要使用pytesseract库结合Pillow库进行 OCR(光学字符识别)。

二、以下是一个简单的示例代码,用于处理文本类型的 PDF 文件:

1、下载安装 python 如:python3.9

2、安装 PyPDF2 库。

pip install PyPDF2 

在这里插入图片描述

3、安装 python-docx 库。

pip install python-docx

在这里插入图片描述

4、打开 pycharm(如:pycharm2018社区免费版),创建python文件 pdftoword.py。

# PDF文件转成word
# (此代码仅适用于文本类型的 PDF 文件,如果是扫描版 PDF,需要使用 OCR 技术进行处理。)import PyPDF2   # pip3 install PyPDF2
from docx import Document   # pip install python-docx# 定义转换函数(接受 PDF 文件路径和 Word 文件路径作为参数)
def pdf_to_word(pdf_path, word_path):try:# 打开PDF文件with open(pdf_path, 'rb') as file:pdf_reader = PyPDF2.PdfReader(file)# 创建一个新的Word文档doc = Document()# 逐页读取PDF内容for page in pdf_reader.pages:text = page.extract_text()if text:doc.add_paragraph(text)# 保存Word文档doc.save(word_path)print(f"成功将 {pdf_path} 转换为 {word_path}")except Exception as e:print(f"转换过程中出现错误: {e}")if __name__ == "__main__":pdf_file = 'example.pdf'word_file = 'example.docx'pdf_to_word(pdf_file, word_file)

5、在pdftoword.py 所在目录准备 example.pdf 文件,打开pycharm2018 ,运行 pdftoword.py 会在当前目前生成 example.docx 文件。

在这里插入图片描述

三、扫描版的 PDF 文件转换成 Word 文件:

1、若要把扫描版的 PDF 文件转换成 Word 文件,得借助 OCR(光学字符识别)技术来识别 PDF 中的文字。在 Python 里,可以使用pytesseract库实现 OCR,同时结合Pillow库来处理图像,以及pdf2image库把 PDF 文件转换为图像。

2、安装依赖库:pytesseract、pdf2image、Pillow和python-docx库。

pip install pytesseract pdf2image Pillow python-docx

在这里插入图片描述

3、安装 Tesseract OCR 和 poppler 工具:pytesseract依赖于 Tesseract OCR 引擎,需要下载并安装 Tesseract OCR,并根据实际安装路径设置(如:D:\Program Files\Tesseract-OCR)。

1)下载安装 Tesseract OCR

https://soft.3dmgame.com/down/233782.html
https://github.com/UB-Mannheim/tesseract/wiki
https://digi.bib.uni-mannheim.de/tesseract/

2)设置 Tesseract OCR 的路径(如果需要)

pytesseract.pytesseract.tesseract_cmd = r’D:\Program Files\Tesseract-OCR\tesseract.exe’

3)下载安装 poppler 并指定poppler的安装或解压路径(如:D:\Program Files\poppler-22.12.0\Library\bin)

Poppler 是一个基于GPL和LGPL开源协议的 PDF 渲染库,同时也是一组用于处理 PDF 文件的实用工具集合。

https://github.com/oschwartz10612/poppler-windows/releases/

4、打开 pycharm(如:pycharm2018社区免费版),创建python文件 pdf_to_word.py。

# 扫描版的 PDF 文件(图片图像) 转换成 Word 文件:pdf_to_word.py# 需要安装依赖库:pip install pytesseract pdf2image Pillow python-docx
import pytesseract
from pdf2image import convert_from_path
from docx import Document
import osdef pdf_to_word_scanned(pdf_path, word_path):try:# 指定poppler的路径,这里以Windows为例,根据实际情况修改poppler_path = r'D:\Program Files\poppler-22.12.0\Library\bin'# 将PDF转换为图像列表,并指定poppler路径images = convert_from_path(pdf_path, poppler_path=poppler_path)# 创建一个新的Word文档doc = Document()# 设置TESSDATA_PREFIX环境变量tessdata_dir = r'D:\Program Files\Tesseract-OCR\tessdata'os.environ['TESSDATA_PREFIX'] = tessdata_dir# 逐页处理图像for i, image in enumerate(images):# 使用pytesseract进行OCR识别(需有chi_sim.traineddata 和 eng.traineddata 字符集)text = pytesseract.image_to_string(image, lang='chi_sim+eng')# 将识别的文本添加到Word文档中if text:doc.add_paragraph(text)# 保存Word文档doc.save(word_path)print(f"成功将 {pdf_path} 转换为 {word_path}")except Exception as e:print(f"转换过程中出现错误: {e}")if __name__ == "__main__":pdf_file = 'example2.pdf'word_file = 'example2.docx'# 设置Tesseract OCR的路径(如果需要)pytesseract.pytesseract.tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe'pdf_to_word_scanned(pdf_file, word_file)

5、在pdf_to_word.py 所在目录准备 example2.pdf 文件,打开pycharm2018 ,运行 pdf_to_word.py 会在当前目前生成 example2.docx 文件。

在这里插入图片描述

http://www.dtcms.com/wzjs/403551.html

相关文章:

  • 做公司网站用什么系统百度广告投放价格
  • dw做网站怎样插入表单百度官网首页登录
  • 京东的网站建设百度推销广告一年多少钱
  • 网站备案撤销百度公司电话热线电话
  • 做网站图片如何不转下一行windows优化大师怎么彻底删除
  • 电子口岸网站做资料库外包客服平台
  • 做网站费用会计分录怎么做专业搜索引擎seo服务
  • 毕业设计做网站seo是什么软件
  • 江门网站设计找哪家培训网站推广
  • 直播网站开发技术广州营销网站建设靠谱
  • 汕头投资建设总公司网站百度知道网页版
  • 湘潭市网站建设seo建设
  • 阿里巴巴做网站百度seo公司整站优化
  • 国内疫情最新数据消息seo优化百度技术排名教程
  • 网站域名被做网站的公司擅自更改营销网站建设价格
  • wordpress网站手机端家电企业网站推广方案
  • 在wordpress上背景怎么调抚顺优化seo
  • 网站首页适合vue做吗文山seo公司
  • 武汉网址制作网络推广seo
  • 域名访问wordpress小图标不显示抖音seo点击软件排名
  • 网页设计和网站开发今日热点新闻头条
  • 网站建设的心得百度做推广一般要多少钱
  • 网上做衣服的网站有哪些有域名有服务器怎么做网站
  • 上海部道网站 建设竞价排名推广
  • 做网站待遇网站seo诊断分析和优化方案
  • 网页设计网站制作公司跨境电商平台哪个最好最可靠
  • 外贸网站制作价格表如何在百度免费发布广告
  • 重庆做网站建设公司哪家好资源最多的磁力搜索引擎
  • 赣州专业企业网站建设百度网页浏览器
  • 自己做刷东西的网站做seo需要哪些知识