当前位置: 首页 > news >正文

Python实用工具:pdf转doc

         该工具只能使用在英文目录下,且无法转换出图片,以及文本特殊格式。

下载依赖项

pip install PyPDF2

 升级依赖项

pip install PyPDF2 --upgrade

 查看库版本

python -c "import PyPDF2; print(PyPDF2.__version__)"

 下载第二个依赖项

pip install python-docx

 给权限

pip install python-docx --user

 验证

python -c "from docx import Document; print('python-docx 安装成功')"

 

# -*- coding: utf-8 -*-
# pdf_to_word_pypdf2_python_docx.py
import PyPDF2
from docx import Documentdef pdf_to_word_pypdf2_python_docx(pdf_path, word_path):with open(pdf_path, 'rb') as pdf_file:pdf_reader = PyPDF2.PdfReader(pdf_file)  # 更新为PdfReaderdocument = Document()for page in pdf_reader.pages:  # 使用pages属性直接遍历text = page.extract_text()  # 更新方法名为extract_text()document.add_paragraph(text)document.save(word_path)# 使用示例
pdf_to_word_pypdf2_python_docx('123456.pdf', 'output.docx')

相关文章:

  • 【计算机视觉】OpenCV实战项目:ETcTI_smart_parking智能停车系统深度解析
  • 前端面试2
  • LangChain对话链:打造智能多轮对话机器人
  • AI大模型学习十八、利用Dify+deepseekR1 +本地部署Stable Diffusion搭建 AI 图片生成应用
  • 5月11日星期日早报简报微语报早读
  • 卷积神经网络-从零开始构建一个卷积神经网络
  • 电源架构与太阳能充电器电路设计分析
  • 【数据结构】线性表
  • 【RabbitMQ】 RabbitMQ高级特性(一)
  • 【洛谷P3386】二分图最大匹配之Kuhn算法/匈牙利算法:直观理解
  • 搭建基于chrony+OpenSSL(NTS协议)多层级可信时间同步服务
  • oracle 会话管理
  • PyCharm软件下载和配置Python解释器
  • linux--------------Ext系列⽂件系统(下)
  • 【STM32开发】-单片机开发基础(以STM32F407为例)
  • 互联网大厂Java面试实战:从Spring Boot到微服务的技术问答与解析
  • redis数据结构-06(LRANGE、LINDEX、LSET、LREM)
  • MySql事务索引
  • AJAX 使用 和 HTTP
  • Linux服务器常用运维工具/命令
  • 习近平同巴西总统卢拉共同出席合作文件签字仪式
  • 联合国秘书长欢迎中美经贸高层会谈成果
  • 继71路之后,上海中心城区将迎来第二条中运量公交
  • 迪奥部分客户数据遭泄露,公司称正持续展开调查
  • 欧元区财长会讨论国际形势及应对美国关税政策
  • 被流量绑架人生,《人生开门红》能戳破网络时代的幻象吗